Categories


Tags


屏蔽百度爬虫的方法

在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider

Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

方法1:

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]

RewriteRule .* - [F]

方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>

Order Allow,Deny

Allow from all

Deny from env=bad_bot

</Limit>

当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。

来源:月光博客


Public @ 2012-08-15 15:56:41

如何让 sogou spider 不抓我的网站

有以下几种方式可以让 sogou spider 不抓取你的网站: 1. 使用 robots.txt 文件。在网站根目录下添加 robots.txt 文件,并加入以下代码: User-agent: Sogou Disallow: / 这将告诉 Sogou 爬虫不要访问网站的任何页面和文件。 2. 使用 meta 标签。在网站的头部添加以下 meta 标签: 这将告诉所有的搜索引擎爬虫不

Public @ 2023-04-18 21:00:23

BaiDuSpider百度蜘蛛占用流量,robots.txt设置

BaiDuSpider百度蜘蛛是百度搜索引擎的爬虫程序,负责抓取并建立Web页面的索引。百度蜘蛛会消耗服务器的流量和资源,对于一些限制流量的网站,可能会受到影响。为了控制百度蜘蛛的访问,可以使用robots.txt文件进行设置。 robots.txt文件是一种网站协议,用来告诉搜索引擎蜘蛛访问网站的规则。如果在网站根目录下没有设置robots.txt文件,搜索引擎蜘蛛将按照默认规则进行访问。为了

Public @ 2023-04-17 20:00:34

如果快照显示网页不完整,是不是说明BaiduSpider没有完整收录网页?

不一定。快照显示网页不完整可能是由于网络连接问题、快照生成错误或者网页存在动态元素等原因造成的。BaiduSpider是搜索引擎的爬虫程序,其收录网页是有一定策略和算法的,收录的网页并不是百分百完整的。因此,虽然快照显示网页不完整,但并不一定说明BaiduSpider没有完整收录网页。

Public @ 2023-06-03 22:00:09

更多您感兴趣的搜索

0.628625s