Categories


Tags


常见的robots.txt文件用法实例

常见的robots.txt文件用法实例:

1、禁止所有搜索引擎抓取网站的任何部分

User-agent: *

Disallow: /

这是禁止所有目录和文件被所有搜索引擎收录。网站还没上线时,有的会先屏蔽所有蜘蛛抓取。

2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)

User-agent: *

Allow: /

这是允许所有搜索引擎抓取网站的任何部分,既然是允许所有文件被抓取,可以不用创建robtos.txt文件,即默认全部允许抓取。

3、禁止spider抓取特定目录

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

这是禁止所有的spider抓取a、b、c目录。这个规则我们最常用到,比如网站的程序后台、程序目录等都可以禁止spider抓取,以减少spider无意义的浪费我们的空间资源。

4、禁止spider抓取搜索结果页面

User-agent: *

Disallow: /so_article?*

如果你网站的搜索结果页面URL格式如:/so_article?keyword=搜索关键字,则按以上格式进行屏蔽,注意最后带了一个星号*,代表屏蔽so_article?带头的所有URL。

对于大部分网站,常用的就是以上4种情况。

来源:搜外网


Public @ 2010-05-21 16:09:23

网站内链优化策略

一个网站要想快速的提高栏目和文章的排名,其合理布局网站的内链结构是必不可少的。相当外部链接而言,内部链接就比较容易控制,成本低。你直接就可以在自己的站上进行部署,不像外部链接的不可控性比较大,需要大量的购买或长期的积累才有办法实现稳定的SEO效果。内链,顾名思义就是在同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接)。合理的网站内链接构造,能提高搜索

Public @ 2009-03-05 16:11:26

博客网站导航的制作

1.首先要对网站进行分类:例如把所有的网站按分类,可以按照新闻、购物、娱乐、学习等来划分; 2.根据每个分类的特点,分别挑选几个最受大家欢迎的网站,如新闻方面可选择新浪、凤凰等,购物方面可选择淘宝、京东等; 3.确定好标题,根据每一类的网站的特点确定最简单的和一个看到就能理解的标题,如新闻类可以确定为“新闻播报”,购物类可以确定为“精品购物”等; 4.确定好网站链接和图标,把各个网站图标

Public @ 2023-02-24 21:00:33

什么是robots文件

robots.txt是一个网站的根目录中的文件,用于告知搜索引擎哪些页面和文件可以被搜索引擎的爬虫访问,哪些不可以。该文件是遵循 robots协议的网站必不可少的一个文件,用于控制搜索引擎的爬虫访问网站的行为。通过robots.txt文件,网站管理员可以禁止搜索引擎爬虫访问一些无用或敏感的网站内容,或是避免搜素引擎爬虫访问较为频繁的API接口等。

Public @ 2023-05-30 08:00:08

更多您感兴趣的搜索

0.448971s