Categories


Tags


robots.txt概念和10条注意事项

robots.txt概念

如果我们网站内有某些特殊的文件不让搜索引擎收录,那怎么办?

答案是:使用一个叫做robots.txt的文件。

robots.txt文件告诉搜索引擎本网站哪些文件是允许搜索引擎蜘蛛抓取,哪些不允许抓取。

搜索引擎蜘蛛访问网站任何文件之前,需先访问robots.txt文件,然后抓取robots.txt文件允许的路径,跳过其禁止的路径。

总结:robots.txt是一个简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。

关于robots.txt文件的10条注意事项:

1、如果未创建robots.txt文件,则代表默认网站所有文件向所有搜索引擎开放爬取。

2、必须命名为:robots.txt,都是小写,robot后面加"s"。

3、robots.txt必须放置在一个站点的根目录下。

通过如https://www.seowhy.com/robots.txt 可以成功访问到,则说明本站的放置正确。

4、一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。

5、空格换行等不能弄错,可复制这个页面并修改为自己的。点击

6、有几个禁止,就得有几个Disallow函数,并分行描述。

7、至少要有一个Disallow函数,如果都允许收录,则写: Disallow:

如果都不允许收录,则写:Disallow: /  (注:只是差一个斜杆)。

8、允许有多个User-agent,如果对所有爬取蜘蛛生效,则用“*”星号表示。

9、robtos.txt文件内可以放上Sitemap文件地址,方便告诉搜索引擎Sitemap文件地址。

10、网站运营过程中,可以根据情况对robots.txt文件进行更新,屏蔽一些不要搜索引擎抓取的文件地址。

举例两个常见屏蔽规则:

User-agent: *  星号说明允许所有搜索引擎收录

Disallow: /search.html   说明 https://www.seowhy.com/search.html 这个页面禁止搜索引擎抓取。

Disallow: /index.php?   说明类似这样的页面https://www.seowhy.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。

来源:搜外网


Public @ 2019-12-20 16:09:22

绝对路径的优点和缺点

绝对路径的优点是:1.网站有RSS输出时,内容会被一些Feed聚合网站抓取显示。同样,页面里指向原网站的链接会被保留。2.如果有人抄袭、采集你的文章,抄袭者比较懒,连页面里面的链接一起原封不动抄过去,绝对路径链接还会指向你的网站,增加网站外链权重。3.就算网页移动位置,里面链接还是指向正确URL。4.有助于预防和解决网址规范化问题。绝对路径的缺点是:1.代码比较多。2.除非链接是动态插入的,不然不

Public @ 2014-08-18 16:11:48

网站设置301重定向怎么操作?301设置需要注意的事项

1. 打开网站的.htaccess文件,添加以下代码: ``` Redirect 301 /old-page.html http://www.yourwebsite.com/new-page.html ``` 2. 在301重定向前,确保新页面已经正常运行,并且地址没有变更。 3. 如果有多个旧页面需要重定向,可以逐个添加301重定向代码。 4. 重定向的目标地址必须是正确的URL

Public @ 2023-04-14 19:50:20

robots非标准扩展协议

非标准扩展协议是指为特定需求而开发的协议,它们不是由标准化组织或工作组所制定的,并且通常只在特定的应用程序或系统内部使用。 在机器人领域,非标准扩展协议可以用于实现特殊的功能或针对特定的应用需求。例如,某些机器人可能需要与其他设备进行协同工作,因此可能需要使用非标准的协议来实现通信和控制。 在开发机器人或机器人应用程序时,非标准扩展协议也可用于灵活地实现自定义的功能和控制。例如,一些机器人应用

Public @ 2023-06-26 19:00:17

禁止搜索引擎收录的方法

以下是禁止搜索引擎收录网站的方法: 1. Robots.txt文件 在网站根目录下建立一个名为“robots.txt”的文件,通过添加禁止搜索引擎收录的指令来控制搜索引擎抓取页面的行为。 2. HTML标签 在网页头部添加的标记,使其被搜索引擎识别为不允许被收录的页面。 3. 登录权限 通过设置网站登录权限,使未登录用户无法访问该网页,从而使搜索引擎无法抓取该页面内容。 4. 封锁I

Public @ 2023-06-26 06:50:17

更多您感兴趣的搜索

0.559665s