Categories


Tags


最权威的Google排名算法解密

说它最权威是因为是Google工程副总裁,负责排名算法的Udi Manber,发表在Google官方博客的一个帖子。下面捡主要内容翻译一下,想看完整原文的请参考Google官方博客Google 搜索质量简介。

搜索质量组是Google内部负责搜索结果排名的。每天Google处理无数查询,Google需要在不到一秒的时间内从数以亿计的网页中选择出应该返回哪些,以及以哪样的顺序显示。

Google对排名算法一直都比较保密,主要原因有两条:竞争及防止被滥用。

Google排名算法的细节是Google皇冠上的珍珠,我们以它为傲,并且非常注意保护。但是完全保密有时候也不是理想状况,所以Udi Manber等人决定与站长多沟通,谈一谈有什么新鲜事,解释一些老的内容,给点建议,参与对话等。这篇帖子是第一篇,以后还会有其他内容。

这个部门的心脏是核心排名小组。排名是相当困难的,比大部分人所想象的更困难。其中一个原因是语言都是模棱两可的,文件也没有任何规则,怎样理解信息没有标准。所以我们需要理解任何人,因为任何原因所写的任何网页。这只是一部分。我们还需要理解用户的查询,再将查询投射到我们所理解的文件上。更不要说不同的人有不同的需求。而且我们需要在几毫秒之内完成这一切。

Google排名算法最出名的部分就是PageRank。PR现在还在使用中,不过已经是一个更大的一系统中的一部分。其他部分还包括语言模块(处理短语,同义词,方言,拼写错误等的能力),查询模块(不仅仅是语言,还包括人们怎样使用语言),时间模块(有的查询返回一个30分钟前刚创作的网页最合适,有的时候返回已经存在很长时间的网页更合适),个性化模块(不是每个人都需要相同的东西)。

另外一个组负责评估我们做的怎样。目标是改善用户体验,这不是主要目标,而是唯一的目标。有每分钟进行的自动评估,阶段性整体质量评估,更重要的还有个别算法调整的评估。当某个工程师有个好主意,开发一个新算法后,我们对这个主意进行测试。一组统计学家会检查数据,确定这个新主意的价值。

2007年,我们做了450次以上的调整,差不多每个星期9次。比如今年1月份,我们对PR算法做了大幅调整。大多数时间我们都是寻找相关性改善的方法,有时我们也致力于简化算法,简单就是好的。(Zac的注释:关于简化算法这句话,是紧接着PR算法调整之后说的,不确认他是讲简化了PR算法,还是说笼统的对算法的简化。我的感觉是PR算法确实有了很大的改变。给我的感觉是,基本上给我们看的工具条PR是不准的,尤其很多该有PR值得内页显示PR为零。也许这就是Udi Manber所说的算法简化造成的。)

在过去两年中,国际搜索是我们的主要焦点之一,包括所有的语言,而不仅限于主要语言。

另外一个小组专门负责新功能和用户界面。Google的用户搜索界面相当简单,当我们增加新功能时,尽量确保对用户来说是简单易用的。在过去一年中,主要的改变包括通用搜索,Google Notebooks,自定义搜索引擎以及iGoogle的改进。用户界面小组有一组易用性专家,在辅助研究用户及评估新功能。

还有一个小组专注于反垃圾和其他各种被滥用的技巧,这也就是Matt Cutts所负责的小组。这个组识别新的垃圾技术,并且以可扩展的方式克服这些垃圾。和其他组一样,这个组也是要处理国际多语种。反垃圾组与Google站长工具组紧密配合。

还有其他专门的项目组。整体来说我们的组织结构相当非正式,人员调动频繁,新项目也随时开始。

来源:seo每天一贴 Zac 昝辉


Public @ 2019-04-10 15:54:33

网站有搜索索引,但迟迟没有收录的原因

搜索引擎有抓取索引网站,可是网站内容并不收录,到底是怎么回事呢?网站要想有很好的流量,除了网站自身有忠实用户去不断点击,也需要做好基本的网络营销推广,而搜索引擎排名就是很常规的获取流量方式。网站要想有好的排名,首先还是解决收录的问题。要想解决收录的问题,首先还是解决搜索引擎蜘蛛抓取。目前很多互联网平台都不让发外链了,所以大多数朋友采用的还是友情链接和部分外链。当然搜索引擎都有链接提交渠道,所以基本

Public @ 2017-07-23 15:55:40

robots里这样写,就能避免蜘蛛爬这个“index.htm”这个首页?

我robots这样写是不是就能避免蜘蛛爬这个“index.htm”这个首页?User-agent: *Disallow: /index.htm11-30.我的index.htm是现在默认的首页,想屏蔽蜘蛛抓取。让蜘蛛爬另一个文档,主要是规避备案巡查我的网站和我备案的不一样,服务器那边要求改,我就整了个htm文档来规避下。写法没有问题。但正常的不建议屏蔽首页地址,,“index.htm”这个后缀地址

Public @ 2019-12-16 16:09:25

Google人工审查手册

前几天SEO Blackhat论坛里爆出一份Google搜索质量人工审查手册。前年也有一份类似涉及排名人工干涉的文件流传出来。像这种内部文件,很少能传出来,所以很受人瞩目。据Philipp个人渠道的证实,这份文件是真的。文件有40多页,捡主要的几条写一点。质量评价范围分为5种。重要。这是一个网页针对特定搜索词所能达到的最高给分。一般指的是关键词的官方网页。有用。第二高分。得到有用评价的网页应该是正

Public @ 2016-10-18 15:54:33

Google企鹅更新4.0的几个特点

9月底,Google上线了企鹅更新4.0(Penguin 4.0)。综合看到的一些总结,简短记录一下Penguin 4.0的几个特点,省得以后忘了。Google企鹅更新penguin 4.0企鹅4.0已成为Google核心算法的一部分所以以后是实时的了,不会再有所谓的更新了。以前网站清理了垃圾链接后,Google抓取、索引后,线下重新计算链接,准备好后集中上线,效果可能要等几个月,甚至一年多才能看

Public @ 2014-07-29 15:54:37

更多您感兴趣的搜索

0.451521s