BaiDuSpider百度蜘蛛占用流量,robots.txt设置_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

BaiDuSpider百度蜘蛛占用流量,robots.txt设置

威海Spider 威海Baiduspider
2668

注：以下BaiDuSpider等于百度蜘蛛、Googlebot等于google蜘蛛、Sogou Spider等于搜狗蜘蛛

一、问题

因某些原因，搜索引擎蜘蛛抓取网站占用很大流量，如图：

网站访问日志也可看见很多蜘蛛爬行记录。

如果是正常的搜索引擎蜘蛛访问，不建议对蜘蛛进行禁止，否则网站在百度等搜索引擎中的收录和排名将会丢失，造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器（不限流量）。

二、认识、学习

我们知道，搜索引擎都遵守互联网robots协议，可通过robots.txt来进行限制。先对robots.txt一些实例说明，然后根据上面网站情况进行规则设置，通过上面截图可以看出BaiDuSpider占用流量非常大，首先在网站跟目录下面建立一个robots.txt文件。

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)

User-agent: *

Allow:

例3. 禁止某个搜索引擎的访问（禁止BaiDuSpider）

User-agent: BaiDuSpider

Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: Baiduspider

allow:/

例5.禁止二个目录搜索引擎访问

User-agent: *

Disallow: /admin/

Disallow: /install/

例6. 仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider

Allow: /

User-agent: Googlebot

Allow: /

User-agent: *

Disallow: /

例7. 禁止百度搜索引擎抓取你网站上的所有图片

User-agent: Baiduspider

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

三、问题解决（规则设置）

根据以上实例，经过分析网站日志，主要是百度抓取图片占用了流量，他还有两个目录也不希望搜索引擎抓取，设置规则如下解决：

User-agent: *

Disallow: /admin/

Disallow: /install/

User-agent: Baiduspider

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

因为搜索引擎索引数据库的更新需要时间。虽然蜘蛛已经停止访问您网站上的网页，但百度搜索引擎数据库中已经建立的网页索引信息，可能需要数月时间才会清除。也就是说设置限制之后日志还会看见蜘蛛爬行，逐渐会降低抓取直到完全生效，这种问题会持续一段时间。如果您需要尽快屏蔽，访问以下帮助中心进行投诉，搜索引擎就会较快处理。

如果设置后无效（或部分蜘蛛不遵守robots协议，可以用：使用伪静态规则拦截蜘蛛访问 http://www.west.cn/faq/list.asp?unid=662　）

四、Baiduspider抓取次数太多造成的带宽堵塞，影响网站正常访问如何解决？

访问百度站长工具http://zhanzhang.baidu.com/ ，注册用户名登录，先添加网站通过验证。

然后到网页抓取》抓取频次》当前抓取频次过大如何解决？提示内容：

您可以按照如下方法依次进行排查及解决频次过大问题：

1、如果您觉得Baiduspider 抓取了您认为的无价值链接, 请更新网站robots.txt进行屏蔽抓取，然后到robots工具页面操作生效。

2、如果Baiduspider的抓取影响了您网站的正常访问，请到抓取频次上限调整页面进行抓取频次上限下调。

3、若以上方法均不能解决问题，请到反馈中心反馈

建议采用第二个方法，调整百度抓取频次上限。以下截图为“频次上限调整页面”，如影响访问，可把值适当调整小。

1.png

五、知识加强

为更详细了解蜘蛛爬行原理和robots.txt写法，建议详细阅读以下标准资料：

其他办法：使用伪静态规则拦截蜘蛛访问 http://www.west.cn/faq/list.asp?unid=662

BaiDuSpider帮助中心 http://www.baidu.com/search/spider.html

Googlebot帮助中心 http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=182072

Sogou Spider帮助中心 http://www.sogou.com/docs/help/webmasters.htm

Robots.txt 详细介绍：http://baike.baidu.com/view/1280732.htm

baidu提供标准robots.txt写法：http://www.baidu.com/search/robots.html

如果按流程禁止了百度蜘蛛访问但是仍有百度蜘蛛访问的，请直接反馈给百度公司调查处理：

http://tousu.baidu.com/webmaster/suggest#1

http://zhanzhang.baidu.com/feedback/index

来源：西部数码

Public @ 2009-04-20 15:56:40

百度搜索引擎基础知识

威海Spider 威海Baiduspider
2273

作为目前全球最大的中文搜索引擎，百度的搜索引擎资讯相关知识点如下： 1. 用户行为数据：百度通过分析用户搜索行为、点击行为、停留时间等数据，分析用户需求并为用户提供更准确的搜索结果。 2. 索引：百度通过爬取互联网上的网页，将其储存在索引库中，用户通过输入关键词来搜索相应的网页。 3. 算法：百度将用户需求、网页内容、链接等因素综合考虑，通过各种算法计算网页的相似度和排名，为用户提供最优质的

Public @ 2023-06-09 06:50:21

我不想我的网站被Baiduspider访问，我该怎么做？

威海Spider 威海Baiduspider
2052

作为AI，我不建议您屏蔽搜索引擎的爬虫。搜索引擎对网站的排名和访问量有重要作用，如果您屏蔽了搜索引擎的爬虫，可能会影响您网站的访问量和曝光率。如果您有特殊的需求，可以在网站的robots.txt文件中加入禁止搜索引擎爬取的指令，但请确保您知道这样做会对您的网站产生什么样的影响。

Public @ 2023-04-12 03:50:21

从输入关键词，到百度给出搜索结果的过程，往往仅需几毫秒即可完成。百度是如何在浩如烟海的互联网资源中，以如此之快的速度将您的网站内容展现给用户？这背后蕴藏着什么样的工作流程和运算逻辑？事实上，百度搜索引擎的工作并非仅仅如同首页搜索框一样简单。搜索引擎为用户展现的每一条搜索结果，都对应着互联网上的一个页面。每一条搜索结果从产生到被搜索引擎展现给用户，都需要经过四个过程：抓取、过滤、建立索引和输出结果。

Public @ 2010-06-25 15:38:38

如何用程序识别Baiduspider ua

威海Spider 威海Baiduspider
2835

Baiduspider是一个蜘蛛爬虫的用户代理（User-Agent），可以通过检查HTTP请求的User-Agent中是否包含字符串“Baiduspider”来识别它。以下是Python代码示例： ```python import re def is_baiduspider(user_agent): if re.search('Baiduspider', user_agent):

Public @ 2023-05-29 11:00:15

Categories

Tags