Categories


Tags


各搜索引擎蜘蛛介绍

搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页、图片、视频等内容。

一般用法为“ spider+URL”,后面的URL(网址)是搜索引擎的痕迹,如果要查看某搜索引擎是否来爬取过你们的网站,可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等…

1、百度蜘蛛:可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面,导致其他页面无法被抓取到而不能被收录。这种情况可以采取 robots协议的方法来调节。

2、谷歌蜘蛛:谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔28天左右就派出“蜘蛛”检索有更新或者有修改的网页。与百度蜘蛛最大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。

3、雅虎中国蜘蛛:如果某个网站在谷歌网站下没有很好的收录,在雅虎下也不会有很好的收录和爬行。雅虎蜘蛛的数量庞大,但平均的效率不是很高,相应的搜索结果质量不高。

4、微软必应蜘蛛:必应与雅虎有着深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多。

5、搜狗蜘蛛:搜狗蜘蛛的爬取速度比较快,抓取的数量比起速度来说稍微少点。最大的特点是不抓取 robot. text文件。

6、搜搜蜘蛛:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录。2011年搜搜已经宣布采用自己的独立搜索技术,但搜搜蜘蛛的特性和谷歌蜘蛛的特点还是有着相似的地方。

8、有道蜘蛛:和其他搜索引擎蜘蛛一样,凡是高权重网站的链接一般都能将其收录。爬行原理也是通过链接之间的爬行。

来源:搜外网


Public @ 2011-05-10 16:22:33

为什么我的网站已经加了robots.txt,还能在搜狗搜索出来

因为搜索引擎索引数据库的更新需要时间。虽然sogou spider已经停止访问您网站上的网页,但搜狗搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。如果您的拒绝被收录需求非常急迫,也可以通过删除快照反馈请求处理。

Public @ 2018-01-11 15:38:56

搜狗搜索蜘蛛爬虫抓取

sogou spider User-Agent字段是什么?PC端UA为Sogou web spiderSogou inst spiderSogou spider无线端UA为Sogou wap spider请注意,根据标准,ua区分大小写。搜狗spider的IP有哪些?搜狗暂不对外提供搜狗spider IP列表,但您可以通过DNS反查IP的方式判断某只spider是否来自搜狗搜索引擎。根据不同平台有

Public @ 2010-02-28 15:38:51

百度蜘蛛IP段,如何查看百度真实蜘蛛

不要看所谓的IP段,IP也不是一沉不变的,过去开头有220.181的 大家都知道,但是后面百度方面在不同的城市都建立了更多的服务器,总要有IP的增加,而IP段不可能一直是固定的那几个。所以单纯的以IP段来看,是非常不严谨的。那么如何查看呢?可以使用cmd命令: nslookup IP地址  的方式来进行查看,如果返回的信息中,有百度子域名,那么说明是百度的IP,如果无法返回,或者返回了诸

Public @ 2009-12-15 16:22:30

网站的搜索引擎蜘蛛抓取越多越好?事实未必

如此 实际上,搜索引擎蜘蛛抓取越多并不一定是越好的。这取决于您的网站是做什么的。如果您的网站有重要的动态内容,那么如果您的搜索引擎蜘蛛抓取过多,将会给您的网站带来压力,导致网站性能和速度下降。如果您的网站是基于静态内容的,例如博客,则搜索引擎蜘蛛抓取更多是没有问题的。

Public @ 2023-02-24 16:00:16

更多您感兴趣的搜索

0.115822s