Categories


Tags


robots.txt语法教程

robots.txt 是一个文件,它位于网站的根目录下,用于告诉搜索引擎和机器人哪些页面可以被访问或哪些不应该被访问。以下是 robots.txt 语法教程。 1. User-agent User-agent 表示搜索引擎或机器人的名称。当网站管理员想要禁止某个搜索引擎或机器人访问网站时,可以使用 User-agent 指定名称。 例如: User-agent: Googlebot Disallow: / 这将告诉谷歌机器人不要访问网站的任何页面。 2. Disallow Disallow 表示哪些页面或目录不允许访问,可以使用通配符来表示多个页面或目录。 例如: User-agent: * Disallow: /private/ Disallow: /login.php 这将告诉所有搜索引擎和机器人不要访问网站的 /private/ 目录和 login.php 页面。 3. Allow 如果某些特定的页面或目录需要被搜索引擎或机器人索引,可以使用 Allow 指定它们。 例如: User-agent: * Disallow: /temp/ Allow: /temp/index.html 这将告诉所有搜索引擎和机器人禁止访问网站的 /temp/ 目录,但还允许访问 /temp/index.html 页面。 4. Sitemap Sitemap 指定网站地图的位置。 例如: Sitemap: http://www.example.com/sitemap.xml 这将告诉搜索引擎网站地图位于 http://www.example.com/sitemap.xml。 总结: 这是 robots.txt 的基本语法。此外,您还可以在 robots.txt 中包含注释,例如: # This is a robots.txt file User-agent: * Disallow: /private/ Disallow: /login.php Allow: /temp/index.html Sitemap: http://www.example.com/sitemap.xml 注释以“#”开头,可以帮助网站管理员和其他人了解 robots.txt 的内容。

Public @ 2023-06-06 11:00:18

nofollow标签的作用有重大变化

几个小时前,Google官方博客发了个帖子:Evolving “nofollow” – new ways to identify the nature of links (演变中的nofollow – 判断链接性质的新方法),公布从今天开始,nofollow标签的作用和Google处理nofollow的方法有了重大变化。nofollow标签的历史nofollow标签(准确说是属性,不过约定俗成,还

Public @ 2019-04-24 16:08:48

关于robots.txt的二三事

【Robots简介】robots.txt是一个协议,是搜索引擎访问网站时第一个要查看的文件,它存在的目的是告诉搜索引擎哪些页面能被抓取,哪些页面不能被抓取。当spider访问一个站点时,会首先检查该站点根目录下是否存在robots.txt,如果存在,spider会按照文件中的内容来确定访问的范围;如果该文件不存在,所有的spider将能够访问网站上所有没有被口令保护的页面。【具体介绍】1、User

Public @ 2017-02-13 16:09:19

百度搜索robots协议全新升级公告

Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。9月11日,百度搜索robots全新升级。升级后robots将优化对网站视频URL收录抓取情况。仅当您的网站包含不希望被视频搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。如您

Public @ 2017-06-06 16:09:00

更多您感兴趣的搜索

0.509844s