Categories


Tags


搜索引擎收录网页的四个阶段

作为SEO从业者,不仅要被搜索引擎抓取,还要被收录,最重要的是在收录后有良好的排名,本文将简单分析下搜索引擎收录网页的四个阶段。每个网站、每个网页的排名都是不一样的,看看你的网站处于哪个阶段呢?

搜索引擎收录网页的四个阶段 PageRank 搜索引擎 建站教程 第1张

网页收录第一阶段:大小通吃

搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。

网页收录第二阶段:网页评级

而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」,据一位朋友了解,在中国「发外链」这个市场每年有上亿元的规模。

爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。

网页收录第三阶段:OCIP策略

OCIP策略更像是PageRank算法的改进。在算法开始之前,每个网页都给予相同的「现金」,每当下载某个页面A后,A将自己的「现金」平均分给页面中包含的链接页面,把自己的「现金」清空。这就是为什么导出的链接越少,权重会越高的原因之一。

而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。

网页收录第四阶段:大站优先策略

大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但有一定依据。

实验表明这个算法虽然简单粗暴,但却能收录高质量网页,很有效果。这也是为什么许多网站的内容被转载后,大站却能排到你前面的最重要原因之一。

来源:卢松松博客


Public @ 2012-08-25 16:22:23

百度搜索引擎工作原理-2-抓取建库

Spider抓取系统的基本框架互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。Spider抓取系统是搜索

Public @ 2022-09-10 16:21:47

搜索引擎技术揭密:中文分词技术

中文分词技术是搜索引擎技术中的关键技术之一,它的主要作用是将一个连续的中文文本切分成一个一个独立的词语,以便于搜索引擎进行后续的处理和分析。 中文分词技术的目标是识别出中文文本中的词语,解决中文语言中没有明显的词语分隔符的问题。中文分词技术主要包括以下几种方法: 1. 基于词典的分词:通过构建一个包含常用词语的词典,将文本与词典进行匹配,识别出词典中存在的词语作为分词结果。 2. 基于规则的

Public @ 2023-07-25 13:00:37

搜索引擎是怎么删除重复网页的

搜索引擎是通过比较网页URL,内容和相关属性来删除重复网页的,具体步骤如下: 1. 搜索引擎收集器(Crawler)会在网络上发现新网页并收集,此时会有一定概率发现相同的网页,并添加到收集器的索引中去。 2. 收集器会识别新的网页,把重复的网页排除。 3. 然后,搜索引擎把新索引serves给布置在 Indexer(索引器)中,执行深入索引,会把相同内容的文章及URL排除,仅保留一条记录

Public @ 2023-02-24 23:12:24

搜索引擎工作原理

搜索引擎的工作原理大致如下: 1. 网络爬虫(Spider):搜索引擎会派遣网络爬虫,搜索引擎爬虫通过扫描互联网上的网页,并收集这些网页的信息,包括标题、关键词、描述、网址、内容、超链接等。 2. 索引(Index):搜索引擎将收集到的网页内容进行分析,提取出其中的关键词,并将这些关键词存入一个大型的索引库中,以便后续快速查询。 3. 检索(Retrieval):当用户输入查询词时,搜索引擎

Public @ 2023-04-14 20:00:35

更多您感兴趣的搜索

0.495024s