|
Post by account_disabled on Dec 24, 2023 9:37:17 GMT
用于识别实体的ID,例如地址和 MREID (机器可读实体 ID)。简而言之,它们看起来像 URL,但其实不然。*注意: MREID 是一串字符(通常是字母和数字),用于指代单个实体(人、地点、地标)。例如:/m/0qs4dyq海量数据(data) ——得益于语料库或谷歌索引,谷歌拥有巨大的数据仓库。大型知识库,例如 Freebase 或 Wikipedia。谷歌多年前就出于这个目的收购了 Freebase。属性,基本上这些属性是实体之间的关系,可以帮助Google理解它们背后的概念。 2012年,谷歌发布了他们拥有的部分数据——谷歌知识 手机号码数据 库中约500个实体、35亿条信息,所有这些数据都是在大约7年前更新的。你可以想象今天这个数字有多么可怕。 Google 使用一种名为Word2Ve c 的算法来增强语言识别能力。Word2Vec 算法基于另外两个小型算法:Skip Grams和Continuous Bag of Words(缩写为 CBOW)。基本上,该算法将单词组合在一起,分析彼此接近的单词,从而了解单词在文本中的连接方式。通过 Word2Vec,Google 可以绘制文本或将文本转换为数字,然后这些数字将表示为向量或图形。**注: 如果您还记得向量的知识,请仔细阅读本节。但如果你忘记了并且从未有过向量的概念,请转到下一节!谷歌将理解不同语言中处于相似关系的单词。 例如,在第一个图表中,数字1、2、3、4、5在英语中分别为一、二、三、四、五。这些西班牙语数字的位置相同。实体搜索引擎优化示例 下面,我们有第一个图表,其中单词“猪”、“牛”、“马”在英语中为“猪”、“牛”、“马”,在西班牙语中这些单词的位置相同。 一旦你将单词转换成数字,单词就会变成概念,而代表的数字将与你所使用的语言完全无关。当我们连接向量时,我们就会看到语言和国家之间的关系。例如,河内是越南的首都,莫斯科是俄罗斯的首都,这两种关系是相同的。从那里,您可以组合单词来得出基本原则。 一切都变得极其合乎逻辑。 'THINGS NOT STRINGS'(对象,不是字符串)这个原则不仅可以帮助您了解页面上有多少单词,还可以帮助您了解这些单词的含义,从而了解用户正在搜索和想要了解哪些信息。如果把这个算法看成一个图,那么这里的实体就是交点(节点),而产生的关系就是连接交点时的边(边)。
|
|