Categories


Tags


Google爬行缓存代理(crawl caching proxy)

前两天人们注意到Google Adsense蜘蛛所抓取的网页会出现在搜索结果中。Matt Cutts在他的博客里迅速的做出了回应,对这种现象做了进一步解释。

简单来说,Google在完成大爸爸数据中心升级后,各种蜘蛛抓取网页的机制产生了变化。不是各个蜘蛛直接抓取网页,而是由一个爬行缓存代理crawl caching proxy抓取网页,然后不同的蜘蛛从这个缓存中获取内容,从而节省了带宽。

Matt Cutts的帖子比较完整的翻译可以在幻灭和小添的博客里看到。

我要补充的是:第一:Matt Cutts特意指出,这个新的抓取机制不会让你的网页被抓取的更快,也不会对排名有任何影响。这个爬行缓存代理也不影响各个蜘蛛本来应该爬行的频率和时间表。只不过各个蜘蛛不直接爬行网页,而是从缓存中获取。

第二:更引起我注意的是,Matt Cutts说这个爬行缓存代理是大爸爸更新之后才有的。因为运行的很顺利,在其他人发现这种现象之前,Matt Cutts自己没意识到这种新的机制已经运行了。这说明Matt Cutts并不能掌握所有各个部门的最新情况,那么还有什么是Matt Cutts也还不知道的呢?

第三:Matt Cutts讲这个机制的目标是节省带宽,而不是隐藏页面(cloaked page)检测。我觉得弦外之音是,利用同样的技术,Google完全可以用其他的蜘蛛来检测隐藏页面。当然也可能是我过度敏感了。

另外,最近很多网站出现被收录的页面数目急剧下降的现象,我怀疑和这个新的页面抓取方法造成的混乱有关。很显然不是排名算法改变导致收录的网页数目下降,而是蜘蛛爬行的问题。

来源:SEO每天一贴 Zac 昝辉


Public @ 2019-08-28 16:22:27

头条搜索UA介绍

头条搜索UA(User Agent)是指头条搜索爬虫在访问并抓取网站数据时,所使用的浏览器标识。多数爬虫在访问网站时,会使用特定的浏览器标识,以便服务器能够识别其为爬虫,并为其提供特定的处理方式。头条搜索爬虫也不例外,其使用的UA是:"Mozilla/5.0 (compatible; ToutiaoSpider/2.0; +http://toutiao.com/)"。其中,"Mozilla/5.0

Public @ 2023-06-24 16:50:08

百度spider介绍

百度spider,也叫"百度蜘蛛",是百度用于抓取网络上的网页内容的爬虫程序。它会自动搜索网络上的网页,抓取页面上的关键词和摘要,并将它们保存在百度的数据库中。百度的蜘蛛不仅可以抓取网页上的文本信息,还可以抓取网页上的图像和多媒体文件,以及网站上的链接。百度蜘蛛可以在短时间内快速地抓取大量信息,因此十分实用。它也可以抓取动态网页内容,对网络内容进行检索更新,从而搜集到最新最准确的检索结果。

Public @ 2023-02-25 17:36:20

网站抓取了一些不存在的目录跟页面?

网站抓取了一些不存在的目录跟页面,本站倒是一个都不抓取是怎么回事?微信 悬赏网站抓取了一些不存在的目录跟页面,本站倒是一个都不抓取是怎么回事?要如何做才能让百度来抓取本站页面,一个多页了啥都没抓取,谜一样。。。以下抓取页面都不存在,另外网站例如新闻页面生成的文章在根目录是没有的,应该是动态的,这是否导致都不抓取了呢?回答:你确定蜘蛛是真的百度蜘蛛吗?99.99%的概率是假蜘蛛,不是真的!来源:A5

Public @ 2010-05-17 16:05:02

网站的搜索引擎蜘蛛抓取越多越好?事实未必

如此 实际上,搜索引擎蜘蛛抓取越多并不一定是越好的。这取决于您的网站是做什么的。如果您的网站有重要的动态内容,那么如果您的搜索引擎蜘蛛抓取过多,将会给您的网站带来压力,导致网站性能和速度下降。如果您的网站是基于静态内容的,例如博客,则搜索引擎蜘蛛抓取更多是没有问题的。

Public @ 2023-02-24 16:00:16

更多您感兴趣的搜索

0.509379s