Categories


Tags


搜索引擎是怎么删除重复网页的

百度曾在站长贴吧里做过这样一个回复:从用户体验角度,“有些转载未必比原创差”。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。

据资料表明近似重复网页的数量占网页总数的的比较高达全部页面的29%,而完全相同的页面大约占全部页面的22%。很多站长都会抱怨,自己写的文章被转载后要么排名消失、要么转载站排在前面,比如下图:

搜索引擎是怎么删除重复网页的 SEO优化 搜索引擎 SEO推广 第1张

在解决这个问题之前,我认为有必要了解下搜索引擎的“去重算法框架”,换个角度看看搜索引擎是怎么给网页去重的。

你的网页什么时候会被删除?

因为互联网上有大约22%的内容是相同的,一旦你的文章发表在网上,就有可能会被转载,而一般判断帮你的网页为转载,那么搜索引擎一般会从三个时间段来删除你的网页:

(1)抓取页面的时候删除,这样可以减少搜索引擎带宽以及减少存储数量;

(2)收录之后删除重复网页;

(3)用户检索时候进行再次删除;增加准确性,耗费时间;

内容重复的4种类型:

1.如果2篇文章内容和格式上毫无差别,则这种重复叫做“完全重复页面”

2.如果2篇文章内容相同,但是格式不同,则叫做“内容重复页面”

3.如果2篇文章有部分重要的内容相同,并且格式相同,则称为“布局重复页面”

4.如果2篇文章有部分重要的内容相同,但是格式不同,则称为“部分重复页面”

删除重复网页对于搜索引擎有很多好处:

1.如果这些重复网页并从搜索引擎数据库中去掉,就能节省一部分存储空间,提高检索的质量。

2.为了提高网页的搜集速度,搜索引擎会对以往搜集信息的分析,预先发现重复网页,在今后的网页搜集过程中就可以避开这些网页,这就是为什么总转载的网站排名不高的原因了。

3.对某个镜像度较高的网页,搜索引擎会赋予它较高的优先级,当用户搜索时就会赋予它较高的权重。

4. 近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量,也就是说如果用户点击了一个死链接,那么可以将用户引导到一个相同页面,这样可以有效的增加用户的检索体验。

通用去重算法框架

对于网页去重任务,具体可以采取的技术手段五花八门,各有创新和特色,但是如果仔细研究,其实大致都差不多。

搜索引擎是怎么删除重复网页的 SEO优化 搜索引擎 SEO推广 第2张

上图给出了通用算法框架的流程图,对于给定的文档,首先要通过一定特抽取手段,从文档中抽取出一系列能够表征文档主题内容的特征集合。这一步骤往往有其内在要求,即尽可能保留文档重要信息,删除无关信息。之所以要删除部分信息,主要是从计算速度的角度考虑,一般来说,删除的信息越多,计算速度会越快。

这就是为什么你想做的关键字总没有排名,反而不想做的关键词却能排名靠前的原因之一,搜索引擎把它认为不重要的词语删除了。

来源:卢松松博客


Public @ 2011-01-17 16:22:23

百度搜索引擎工作原理-4-外部投票

外链的作用(2014版)曾经,“内容为王超链为皇”的说法流行了很多年,通过超链计算得分来体现网页的相关性和重要性,的确曾经是搜索引擎用来评估网页的重要参考因素之一,会直接参与搜索结果排序计算。但随着该技术被越来越多的SEO人员了解,超链已经逐渐失去作为投票的重要意义,无论是谷歌还是百度,对超链数据的依赖程度都越来越低。那么,在现在,超链在发挥着怎样的作用?1, 吸引蜘蛛抓取:虽然百度在挖掘新好站点

Public @ 2021-07-26 16:21:46

搜索引擎检索系统概述

搜索引擎检索系统是指实现引用文献资源检索、特定学科知识检索等服务的系统。包括主要用于进行引文检索的数据库管理系统、多元综合检索系统,浏览引擎,等。 其主要功能包括:引文的资源的收集、索引、目录和存储;对文献进行分类和检索;检索系统中相关检索结果的排序和显示;浏览系统中各式学术服务,比如新闻信息、拥有特定学科内容的网站;支持Web检索、模糊检索、多备份系统等功能,以确保检索准确性;在线的文献的

Public @ 2023-02-24 07:48:33

搜索引擎检索系统概述

搜索引擎检索系统是一种利用计算机程序和算法为用户提供信息检索服务的系统。其作用是在海量的信息中快速准确地找到用户需要的信息并返回给用户。 搜索引擎检索系统包括以下几个基本部分: 1. 爬虫:负责收集互联网上的网页等信息,并将其保存到搜索引擎的数据库中。 2. 索引器:通过对网页内容进行分析和加工处理,建立一张包含关键词和网页链接的索引表,以便搜索引擎能够快速地响应用户的检索请求。 3. 检

Public @ 2023-06-09 01:50:15

搜索引擎如何抓取你的网页

搜索引擎优化(SEO)是搜索引擎有好的收录网页的过程,适当的SEO有利于蜘蛛爬行你的网站,使你的内容符合搜索引擎算法,以便确认它与关键词高度相关。优化的目的就是使网页的内容便于蜘蛛理解,下面我就以百度新收录的一篇内容来进行说明,我以一个完整标题进行搜索,其目的是能反映出更多关键词在百度自然搜索的结果页面,能更好的说明搜索引擎是如何抓取你的网页的。搜索引擎如何抓取你的网页 网站优化 SEO优化 SE

Public @ 2019-08-19 16:22:21

更多您感兴趣的搜索

0.105065s