Categories


Tags


RobotsMETA标签的写法

Robots META标签中没有大小写之分,name="Robots"表示所有的搜索引擎,可以针对某个具体搜索引擎写为name="BaiduSpider"。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以","分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令"archive",可以限制GOOGLE是否保留网页快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

来源:360站长平台


Public @ 2019-11-07 16:09:03

什么是死链&;死链的标准

死链(Dead Link)是指网页上已经失效但仍然出现在超链接中的链接,或者指向网页内的地址。 死链的标准通常有以下几点: 1. 服务器错误或页面不存在:点击链接后页面无法正常打开,出现404等错误页面。 2. 指向过期或已删除的网页:点击链接后打开网页内容已不存在或已过期。 3. 指向被禁止访问的网页:点击链接后无法打开,可能是因为网页被禁止访问或需要权限才能访问。 4. 指向已更改地

Public @ 2023-06-15 23:50:20

robots.txt文件放在哪里?

robots.txt文件放在哪里?robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。网站 URL相应的 robots.txt的 URLhtt

Public @ 2017-01-09 16:08:57

常见的robots.txt文件用法实例

常见的robots.txt文件用法实例:1、禁止所有搜索引擎抓取网站的任何部分User-agent: *Disallow: /这是禁止所有目录和文件被所有搜索引擎收录。网站还没上线时,有的会先屏蔽所有蜘蛛抓取。2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)User-agent: *Allow: /这是允许所有搜索引擎抓取网站的任何部分,既然是允许所有文件被抓取,可以

Public @ 2010-05-21 16:09:23

哪些网站的目录需求运用robots.txt文件制止抓取

1. 银行和金融机构的网站,因为这些网站可能包含敏感信息,例如客户的个人和财务信息。 2. 医疗保健机构的网站,因为这些网站可能包含个人医疗信息。 3. 艺术、音乐和影片网站,因为这些网站可能包含受版权法保护的内容。 4. 政府网站,特别是警察局和情报机构的网站,因为这些机构的网站可能包含安全敏感信息。 5. 搜索引擎的漏洞报告网站,因为这些网站可能敏感地显示诸如数据库配置、文件位置等敏感

Public @ 2023-06-15 06:00:13

更多您感兴趣的搜索

0.481339s