常见的robots.txt文件用法实例_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

常见的robots.txt文件用法实例

常见的robots.txt文件用法实例：

1、禁止所有搜索引擎抓取网站的任何部分

User-agent: *

Disallow: /

这是禁止所有目录和文件被所有搜索引擎收录。网站还没上线时，有的会先屏蔽所有蜘蛛抓取。

2、允许所有的spider抓取（或者也可以建一个空的robots.txt文件）

User-agent: *

Allow: /

这是允许所有搜索引擎抓取网站的任何部分，既然是允许所有文件被抓取，可以不用创建robtos.txt文件，即默认全部允许抓取。

3、禁止spider抓取特定目录

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

这是禁止所有的spider抓取a、b、c目录。这个规则我们最常用到，比如网站的程序后台、程序目录等都可以禁止spider抓取，以减少spider无意义的浪费我们的空间资源。

4、禁止spider抓取搜索结果页面

User-agent: *

Disallow: /so_article?*

如果你网站的搜索结果页面URL格式如：/so_article?keyword=搜索关键字，则按以上格式进行屏蔽，注意最后带了一个星号*，代表屏蔽so_article?带头的所有URL。

对于大部分网站，常用的就是以上4种情况。

来源：搜外网

Public @ 2010-05-21 16:09:23

真实有效站点地图的主要目的是方便搜索抓取的，如果地图存在死链或坏链，会影响网站在搜索引擎中网站权重的，所以要仔细检查有无错误的链接地址，提交前通过站长工具，检查网站的链接是否有效。简化站点地图不要出现重复的链接，要采用标准W3C格式的地图文件，布局要简洁，清晰，如果地图是内容式地图，每页不要超过100内容个链接，采用分页的形式，逐一开来。更新建议经常更新站点地图，便于培养搜索爬虫爬行的频率。经常有

Public @ 2016-06-24 16:09:53

博客网站导航的制作

1.首先要对网站进行分类：例如把所有的网站按分类，可以按照新闻、购物、娱乐、学习等来划分； 2.根据每个分类的特点，分别挑选几个最受大家欢迎的网站，如新闻方面可选择新浪、凤凰等，购物方面可选择淘宝、京东等； 3.确定好标题，根据每一类的网站的特点确定最简单的和一个看到就能理解的标题，如新闻类可以确定为“新闻播报”，购物类可以确定为“精品购物”等； 4.确定好网站链接和图标，把各个网站图标

Public @ 2023-02-24 21:00:33

robots.txt文件的格式

robots文件往往放置于根目录下，包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL,or NL作为结束符），每一条记录的格式如下所示："<field>:<optional space><value><optionalspace>"在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以

Public @ 2015-08-19 16:08:59

RobotsMETA标签的写法

Robots META标签中没有大小写之分，name="Robots"表示所有的搜索引擎，可以针对某个具体搜索引擎写为name="BaiduSpider"。 content部分有四个指令选项:index、noindex、follow、nofollow，指令间以","分隔。INDEX 指令告诉搜索机器人抓取该页面;FOLLOW 指令表示搜索

Public @ 2019-11-07 16:09:03

Categories

Tags