Categories


Tags


人工智能在搜索算法中的应用

2016年以来,IT行业最大的技术突破应该是人工智能了,不仅在一年左右时间,在最后一个人类曾经自以为机器很难战胜人类的游戏项目上完胜人类,前几天更是出现了逆天的AlphaGo Zero,完全不用借鉴人类知识,自学3天就超越了人类。

人工智能领域最牛X的公司,国外是Google,国内是百度。都是搜索引擎。这恐怕也不是什么巧合,而是因为搜索引擎是最适合开发人工智能的公司,他们拥有最大量的数据,包括文字、图片、视频,还有地图、路况、用户使用数据等等。

搜索引擎公司的AI成果在多大程度上运用到了他们的核心业务-搜索中?他们都没有明确地对外说明,从搜索工程师的零碎发言中猜测,至少目前还没有大规模使用,并没有改变搜索算法的基础。毕竟人工智能虽然概念存在了几十年,但效果突飞猛进只是近几年的事,还没有出现通用人工智能,在围棋这种规则简单明确的领域中牛X,迁移到规则模糊的系统中,比如搜索,还需要一些时间。

但我想,人工智能大规模应用于搜索算法是早晚的事。据说以前百度大搜索部门和人工智能/深度学习部门之间是有些矛盾的,现在吴恩达离开了百度,陆奇对百度又进行了很多人事调整,搜索部门对人工智能的排斥也许就大大降低了。

其实人工智能已经在搜索算法中有所运用。举两个例子。

百度DNN模型

前几个月看到了百度朱凯华的一篇《AI赋能的搜索和对话交互》演讲报道。数年前和朱凯华还做过一次访谈,那时候他还是Google的主任架构师,是著名的熊猫算法的主要参与者之一,现在他是百度的首席架构师了。演讲内容很多,感兴趣的搜索标题就能找到全文,很值得深入读一下。这么长时间SEO行业很少人注意到这篇这么有价值的关于搜索算法的公开信息,还是挺意外的。

演讲里提到了百度2013年上线的DNN模型,极大提高了语义相关性的判断范围和准确性,2013年百度相关性提高的34%来自于DNN模型,2014年全年相关性提升的25%来自DNN模型。DNN模型使用的就是深度学习方法,通过100亿的用户点击数据训练模型,有超过1亿个参数。下面介绍的Google RankBrain是2015年上线的,所以百度是世界上第一个将人工智能应用到实际搜索算法中的公司。

下图是DNN训练的示意图:

百度DNN模型是人工智能在算法中的第一次应用

简单说,就是对同一个查询词,模型分析了真实用户点击了的页面的标题,和没有点击的页面标题,从而更深入理解哪些标题是满足了用户需求的。经常出现的情况是,页面标题并不包含查询词,用户却更愿意点击这些页面,说明这些页面满足了用户需求,这些页面的标题,即使不包含查询词,也是与查询词语义相关的。这是经典的页面-关键词相关性算法无法计算出来的。

演讲中提到的例子:

百度DNN模型案例

在DNN上线之前,用户搜索“ghibli车头如何放置车牌“时,由于相关信息很少,没有什么页面是以这个查询词为标题或者页面出现这些关键词的,所以搜索结果质量不高,传统搜索算法只能按关键词匹配返回一些ghibli相关信息,却没几乎有“车头如何放置车牌”的信息。

(注:看到这里的读者不用去百度搜索“ghibli车头如何放置车牌”了,您看到的将是被这篇帖子污染的搜索结果,会看到本帖,以及被转载、抄袭的本帖。)

DNN上线之后的搜索结果是这样的:

百度DNN模型上线效果

可以看到,搜索结果中还是没有以“ghibli车头如何放置车牌“为标题的页面,但解决了用户的需要,算法理解了“前”、“前面”和“车头”是一个意思,“放哪里啊”、“怎么装”、“咋挂”和“任何放置“是一个意思,所以”ghibli车牌咋挂“这种页面回答了“ghibli车头如何放置车牌“这个查询,虽然他们包含的关键词是不一样的。

这种对相关性的理解不是传统以关键词匹配为基础的搜索算法能算出来的,而是真实用户的点击数据告诉搜索算法的。用户搜索“ghibli车头如何放置车牌“时,经常点击”ghibli车牌咋挂“、”ghibli前面车牌照怎么装“这些页面,DNN模型被训练后知道,这些词之间是语义相关的。

Google RankBrain

2015年上线的Google RankBrain解决的也是对查询词的深入理解问题,尤其是比较长尾的词,找到与用户查询词不完全匹配、但其实很好回答了用户查询的那些页面。和百度DNN是非常类似的。Google没有具体说明RankBrain的训练方法,估计和百度DNN也是类似的。

2015年RankBrain上线时,15%的查询词经过RankBrain处理,2016年所有查询词都要结果RankBrain处理。

Google自己经常举的RankBrain例子是这个查询:

What’s the title of the consumer at the highest level of a food chain

这个查询词相当长尾,完全匹配的结果比较少,而且查询中的几个词容易有歧义,比如consumer通常是消费者的意思,food chain也可以理解为餐饮连锁,但这个完整的查询和商场、消费者、饭馆之类的意思没有任何关系,RankBrain能理解其实用户问的是食物链顶端的物种是什么名字。同样,搜索结果不能按照传统的关键词匹配来处理。

这种长尾查询数量很大,每天Google收到的查询里有15%是以前都没出现过的。这种查询要靠关键词匹配就比较难以找到高质量页面,数量太少,甚至没有,但理解了查询的语义和意图,就能找到满足用户需求的、关键词并不完全匹配的页面。

对SEO的影响以后再详细写,这里只是先简单提示一下:页面要包含关键词,这在目前的关键词优化过程中是必然的,现在搜索引擎能理解两句不同的话意思是一样的了,以后创作或编辑页面内容时,是不是还一定要包含关键词呢?

2019年2月10号更新:Google工程师Gary Illyes在Reddit上举办的一次问答活动上这样描述RankBrain的工作原理:

RankBrain is a PR-sexy machine learning ranking component that uses historical search data to predict what would a user most likely click on for a previously unseen query. It is a really cool piece of engineering that saved our butts countless times whenever traditional algos were like, e.g. “oh look a “not” in the query string! let’s ignore the hell out of it!”, but it’s generally just relying on (sometimes) months old data about what happened on the results page itself, not on the landing page

就我的理解,基本上和百度DNN模型一样,对某些查询量很小,甚至以前没出现过的查询词,RankBrain使用历史搜索数据(搜索结果页面上的点击数据,不是网页本身数据)预测用户最可能点击哪个页面。

来源:SEO每天一贴 Zac 昝辉


Public @ 2012-06-09 16:14:23

影响排名的用户行为因素有哪些?

可以影响排名的用户行为如下:1、社会媒体网站社会化媒体网站出现页面的链接或网站名称,也可能影响网站排名。这一点下面再比较详细地探讨。2、用户特征不管是新用户还是老用户,一个用户多次返回访问同一个网站,说明这个网站有用处,应该给予更好的排名。比如用户本身是哪个领域的专家,他也可能对所访问网站的排名有影响3、网站黏度弹出率、访问时间、访问页面数这些反映网站黏度的指标,也都可以被工具条记录。弹出率越低,

Public @ 2015-06-30 16:12:20

如何选择seo外包商而不被忽悠

1.调查外包商的真实经验:要调查外包商过去的案例,看看外包商是否能实现承诺的效果,且使用的方法是否符合seo规范。 2.避免过多的降权技术:许多seo外包商经常采取抑制排名的降权技术,但这种技术很可能对网站品牌形象造成损害,因此应尽量避免。 3.慎用过多的代码:太多的代码技术可能影响网站的加载速度和用户体验,因此应慎用。 4.充分了解seo外包商的价格:一定要选择性价比合理的seo外包商

Public @ 2023-02-28 09:48:29

以人工智能为基础的搜索算法是什么样的?

三年前,Googled的AlphaGo横空出世时,我写了《AlphaGo、深度学习及SEO》这篇帖子,在那之后,我一直非常关注人工智能与搜索算法的进展。人工智能与搜索算法我不知道搜索算法什么时候会大规模以AI为基础,也不知道目前AI技术在搜索算法中应用到了什么程度。由于目前人工智能技术的不可解释性,搜索引擎以AI作为算法基础会是非常谨慎的,不然很不容易debug。不过算法中的一些模块应用AI是肯定

Public @ 2009-11-20 16:14:26

人工智能在搜索算法中的应用

搜索算法是人工智能研究中的重要领域,在解决复杂问题过程中起到重要作用。目前,人工智能技术和搜索算法技术紧密结合,已被广泛用于各种行业应用场景中。 (1)最优化搜索算法。最优化搜索算法是一种用于实现“状态空间搜索”的经典技术,该技术利用智能技术,根据目标任务的特性,按照基于空间结构的模型,建立搜索过程,构建最优搜索路径,以实现最优解决方案的搜索模型。 (2)模糊搜索算法。模糊搜索算法是模糊控

Public @ 2023-02-27 05:48:55

更多您感兴趣的搜索

0.117293s