360搜索对Robots协议的支持
360搜索支持Robots协议的主要命令,以下为具体说明:
1. user-agent
360搜索各产品的爬虫user-agent为:
- 网页搜索 360Spider
- 图片搜索 360Spider-Image
- 视频搜索 360Spider-Video
2. Allow
站长可通过Allow命令指定建议收录的文件、目录 。
3. Disallow
站长可通过Disallow命令指定不建议收录的文件、目录。
360搜索支持Robots协议的主要命令,以下为具体说明:
1. user-agent
360搜索各产品的爬虫user-agent为:
- 网页搜索 360Spider
- 图片搜索 360Spider-Image
- 视频搜索 360Spider-Video
2. Allow
站长可通过Allow命令指定建议收录的文件、目录 。
3. Disallow
站长可通过Disallow命令指定不建议收录的文件、目录。
匹配方式分两部分:1.path部分,2.参数部分匹配支持?*$?两种通配符?*? 表示任何有效字符的 0 个或多个个案。?$? 表示网址结束。path部分与google匹配方式保持一致,也就是只有/或是*开头的规则才有机会匹配上?/?匹配根目录以及任何下级网址?/fish??/fish?开头的匹配项* ?/fish?* ?/fish.html?* ?/fish/salmon.html?* ?/fi
百度各个产品使用不同的user-agent:无线搜索Baiduspider-mobile图片搜索Baiduspider-image视频搜索Baiduspider-video新闻搜索Baiduspider-news百度搜藏Baiduspider-favo百度联盟Baiduspider-cpro商务搜索Baiduspider-ads网页以及其他搜索Baiduspider来源:360站长平台
用几个最常见的情况,直接举例说明:1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。2. 禁止所有SE收录网站的某些目录:User-agent: *Disallow: /目录名1/Disallow: /目录名2/Disallow: /目录名3/3. 禁止某个SE收录本站,例如禁止百度:User-agent: BaiduspiderDisallow: /4. 禁止所有SE收录
控制页面的抓取、索引是SEO优化网站结构时经常需要用到的技术。常见的工具包括:robots文件页面的noindex标签链接的nofollow属性页面的301转向页面的canonical标签等这几个工具各有各的特定应用场景,但都是用于控制网站内部结构,之间容易混淆,还经常需要配合使用,SEO们必须准确理解这几个工具的机制和原理,不然很容易出错。这篇贴子讨论robots文件。Robots文件的作用ro