搜索问答剧场【七】“robots文件”常见问题解析_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

搜索问答剧场【七】“robots文件”常见问题解析

哈喽大家好！

【搜索问答剧场】最新一集如期而至，平小雕又带着满满的知识干货回来啦！准备好迎接知识的洗礼了嘛？

第五集【搜索问答剧场】中，跟大家提到了【Robots】工具。

本期就来详细教大家如何灵活地使用【Robots】工具，以及如何正确设置网站整体的抓取范围。

一、了解robots文件

1、Q：什么是robots文件？

A：robots文件用于指定spider在网站上的抓取范围，在文件中可以声明网站中不想被搜索引擎抓取或指定被抓取的资源。

2、Q：robots.txt文件怎么写？

文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：

"<field>:<optional space><value><optionalspace>"

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下：

User-agent:该项的值用于描述搜索引擎robot的名字。

Disallow:该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。

Allow:该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。

如果"/robots.txt"不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。

说明：百度会严格遵守robots的相关协议，请注意区分您不想被抓取或收录的目录的大小写，百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配，否则robots协议无法生效。

robots.txt文件举例：

3、Q：robots.txt文件放在哪里?

A：robots.txt文件应该放置在网站根目录下。网站对应robots文件的URL：

详情可参考《什么是robots文件》

二、如何使用【Robots】工具

1、Q：【Robots】工具的作用？

A：站长可以通过搜索资源平台【Robots】工具来创建、校验、更新robots.txt文件，或查看网站robots.txt文件是否成功生效的情况。

2、Q：使用【Robots】工具的注意事项？

A：【Robots】工具目前支持48k的文件内容检测。同时请保证网站的robots.txt文件不要过大，目录最长不超过250个字符。

robots文件更新和提交后，百度蜘蛛不是立即调整停止/开放抓取的，搜索引擎需要逐渐完成robots.txt的更新。

3、Q：robots.txt中设置了禁止百度收录网站的内容，为何还出现在百度搜索结果中？

A：可能存在以下问题：

（1）robots文件不能够有效访问。站长可以在资源平台-【Robots】工具查看robots文件的访问情况。

（2）文件暂未生效。robots文件在结果中生效一般需要1-2周，可以关注。

4、【Robots】工具校验提示解读？

A：可能出现以下情况：

显示错误码404，robots文件可能无法被访问。

显示错误码301，robots文件可能存在跳转。

显示错误码500，robots页面访问失败。

以上情况时，建议自查robots文件情况针对性优化后，重新提交校验。

5、Q：robots文件误封禁，如何处理？

A：（1）修改robots文件，封禁改为允许。

（2）在搜索资源平台检测并更新robots文件，若显示抓取失败，可以多尝试点击几次，触发蜘蛛抓取站点。

（3）关注【抓取频次】数据情况，可以适当调整抓取频次。

（4）可以使用【链接提交】，主动提交相关资源链接。

来源：百度搜索资源平台

Public @ 2015-05-15 15:16:25

| 什么是面包屑导航？面包屑导航也叫位置导航，告诉用户我们当前位置是在网站的什么位置。| 为什么要做面包屑导航优化？1、有利于SEO优化简单易懂、便于用户精准定位站点内容，占用位置小，视觉上容易接受，有效降低跳出率。2、提高用户体验它可以合理引导蜘蛛爬行，完善站内结构，传递权重，提高关键词排名。| 如何优化面包屑导航？1、注意给首页的链接为首选域、不带index后缀为标准化URL2、给首页的锚文本

Public @ 2015-06-01 16:11:41

网站图片的搜索引擎优化策略

我以前曾经提到过，网站的图片是非常耗费流量的，去年我就曾经统计过，两天的时间博客有20多G的访问流量，图片所在的目录upload占用了18.6G，而文章所在目录只用了1.3G流量，可见图片占用流量资源之巨大，这也就是很多人都喜欢将图片文件放在第三方免费网络相册的原因。然而，如果条件允许的话（比如有独立的服务器，充足的流量），那么将图片存储在自己的网站空间，反而可以利用搜索引擎的图片搜索给自己带来不

Public @ 2015-03-06 15:16:35

robots

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。来源：360站

Public @ 2014-01-16 16:09:19

robots协议

威海seo术语威海Robots
2109

　Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫扫除规范”（RobotsExclusionProtocol），网站经过Robots协议通知查找引擎哪些页面可以抓取，哪些页面不能抓取　　是查找引擎的一部分来定位和索引互联网上的每个可能答复查找恳求的网页，一般只在评论robots的HTML标签或许robots.txt文件的时分运用。

Public @ 2010-10-17 15:26:25

Categories

Tags