Categories


Tags


关于robots.txt的二三事

【Robots简介】

robots.txt是一个协议,是搜索引擎访问网站时第一个要查看的文件,它存在的目的是告诉搜索引擎哪些页面能被抓取,哪些页面不能被抓取。

当spider访问一个站点时,会首先检查该站点根目录下是否存在robots.txt,如果存在,spider会按照文件中的内容来确定访问的范围;如果该文件不存在,所有的spider将能够访问网站上所有没有被口令保护的页面。

【具体介绍】

1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中,如果有多条User-agent记录说明有多个robot会受到\robots.txt\的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在\robots.txt\文件中,\User-agent:*\这样的记录只能有一条。

360搜索支持user-agent命令,包括使用通配符的user-agent命令。

2、Disallow命令指定不建议收录的文件、目录。

Disallow值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。

3、Allow命令指定建议收录的文件、目录。

Allow值用于描述希望被访问的一组URL,它的值也可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。

User-agent: * 这里的*代表所有的搜索引擎种类,*是一个通配符,*也可以替换成其他的蜘蛛名称,例如:Googlebot、yisouspider,表示屏蔽特定搜索引擎的蜘蛛

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以\.htm\为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以\.htm\为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图,告诉爬虫这个页面是网站地图

【注意事项】

1、robots文件往往放置于根目录下;

2、当您的网站包含有不希望被搜索引擎收录的内容时,才需要使用robots.txt文件;

3、360搜索会对#这样形式的robots进行全匹配url处理,所以在写robots的时候一定要小心,最好写尽量精确的url通配,不建议做泛匹配

User-agent: *

Disallow: *#*

或者

User-agent: *

Disallow: #

360搜索会把#认为是全部匹配,从而不抓取全部的url,并且会将线上收录的链接做下线处理!!因此我们不建议站长写入这样的规则!

类似的,如写成:Disallow: #.html,则会不抓取所有以html为后缀的url

【常见问题】

Robots相关的常见问题主要是因错误书写robots导致的网站不被360搜索引擎收录。所以建议站长,当网站出现不收录时,首先检查一下robtos文件是否正确。

Robots协议是一个搜索引擎和网站之间的善意协议,我们鼓励站长们也能善意使用这一协议,除非有充足合理的理由,否则我们一般都不建议使用Robots协议屏蔽360搜索及其他搜索引擎的蜘蛛。

其他任何不清楚的,还可以访问咱们的robots百科词条:

https://baike.so.com/doc/5339174-7435147.html

或参考360搜索针对robots的FAQ:

http://www.so.com/help/help_3_2.html

来源:360站长平台


Public @ 2017-02-13 16:09:19

从SEO角度优化网站结构带来哪些好处?

网站的优化分为两大部分,一是网站结构的优化,二是页面上关键词的优化。今天主要讲的是网站结构优化,网站首页的布局对网站优化有着至关重要的作用,网站结构布局结构好才能吸引蜘蛛更好的抓取。从SEO角度优化网站结构带来哪些好处?1、提高用户体验网站结构针对于用户体验进行优化,考虑多维度用户的需求,提高多类型用户的体验度,让搜索引擎更好地收录我们的网站,从而提升网站排名。2、提高收录率优化网站的结构,建议形

Public @ 2019-03-09 16:12:08

站点地图的重要性

1、搜索引擎每天都是让爬虫在互联网爬行来抓取页面,站点地图的作用就是给爬虫爬行构造了一个方便快捷的通道,因为网站页面是一层一层的链接的,其中可能会存在死链接的情况,如果没有站点地图,爬虫爬行在某个页面就因死链接爬行不了,那么就不能收录那些断链接的页面。2、站点地图的存在不仅是满足搜索引擎爬虫的查看,更多是方便网站访客来浏览网站,特别是例如门户型网站由于信息量太多很多访客都是通过站点地图来寻找到自己

Public @ 2010-08-07 16:09:53

哪些网站的目录需求运用robots.txt文件制止抓取

1)、图像目录图像是构成网站的首要组成元素。跟着现在建站越来越便利,许多cms的呈现,真实做到了会打字就会建网站,而正是由于如此便利,网上呈现了许多的同质化模板网站,被重复运用,这样的网站查找引擎是必定不喜爱的,就算是你的网站被录入了,那你的作用也是很差的。若是你非要用这种网站的话,主张你大概在robots.txt文件中进行屏蔽,一般的网站图像目录是:imags 或许 img;2)、网站模板目录如

Public @ 2015-08-28 16:09:28

360搜索对Robots协议的支持

360搜索支持Robots协议的主要命令,以下为具体说明:1. user-agent360搜索各产品的爬虫user-agent为:- 网页搜索 360Spider- 图片搜索 360Spider-Image- 视频搜索 360Spider-Video2. Allow站长可通过Allow命令指定建议收录的文件、目录 。3. Disallow站长可通过Disallow命令指定不建议收录的文件、目录。

Public @ 2019-06-30 16:09:34

更多您感兴趣的搜索

0.400434s