sogou spider 如何反应我网站上页面的更新?
- 威海Spider 威海sogou spider
- 1366
sogou spider 会根据网页的重要性和历史变化情况来动态调整更新时间,更新已经抓取过的页面
Public @ 2010-09-06 15:38:57
sogou spider 会根据网页的重要性和历史变化情况来动态调整更新时间,更新已经抓取过的页面
Baiduspider是一个蜘蛛爬虫的用户代理(User-Agent),可以通过检查HTTP请求的User-Agent中是否包含字符串“Baiduspider”来识别它。 以下是Python代码示例: ```python import re def is_baiduspider(user_agent): if re.search('Baiduspider', user_agent):
有以下几种方式可以让 sogou spider 不抓取你的网站: 1. 使用 robots.txt 文件。在网站根目录下添加 robots.txt 文件,并加入以下代码: User-agent: Sogou Disallow: / 这将告诉 Sogou 爬虫不要访问网站的任何页面和文件。 2. 使用 meta 标签。在网站的头部添加以下 meta 标签: 这将告诉所有的搜索引擎爬虫不
在您的网站的问题改正之后,点此提交申请解封