Categories


Tags


robots.txt语法教程

用几个最常见的情况,直接举例说明:

1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。

2. 禁止所有SE收录网站的某些目录:

User-agent: *

Disallow: /目录名1/

Disallow: /目录名2/

Disallow: /目录名3/

3. 禁止某个SE收录本站,例如禁止百度:

User-agent: Baiduspider

Disallow: /

4. 禁止所有SE收录本站:

User-agent: *

Disallow: /

5. 加入sitemap.xml路径,例如:

来源:360站长平台


Public @ 2017-12-16 16:09:16

什么是HTML版本网站地图?网站地图有什么作用?

HTML版本网站地图指的是一种包含网站所有页面的列表,可以直接在网站上进行访问和浏览的网页。它以HTML标记语言格式编写,被搜索引擎和爬虫程序识别,方便这些程序对网站内部链接结构的探索和索引。 网站地图主要有以下作用: 1.帮助搜索引擎和爬虫程序更好地索引网站,提高网站在搜索引擎中的排名; 2.方便用户快速找到需要的信息,提高用户体验; 3.展示网站的结构和内容,提升网站的可视性和可访问性

Public @ 2023-03-28 22:00:20

robots使用技巧

1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录--保证服务器性能。比如:大多数网站服务器都有程序储存在"cgi-bin"目录下,因此在ro

Public @ 2009-05-16 16:09:17

robots.txt文件放在哪里?

robots.txt文件放在哪里?robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。网站 URL相应的 robots.txt的 URLhtt

Public @ 2017-01-09 16:08:57

禁止搜索引擎收录的方法

禁止搜索引擎收录的方法什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分

Public @ 2016-10-21 16:09:20

更多您感兴趣的搜索

0.467699s