什么是死链接?
死链接是指在网页中,链接到其他网页或文件的链接,但是该链接已经失效或无法正常访问,点击该链接无法打开目标网页或文件。也被称为“坏连接”、“失效链接”、“404错误”。
robots.txt文件是一个文本文件,用于向搜索引擎和其他机器人网站爬虫指定哪些页面或内容可以被爬取,哪些页面或内容不能被爬取。它的主要作用是为了控制搜索引擎和其他机器人网站爬虫访问和抓取网站内容,保护网站的隐私和安全。如果一个网站不想被某些搜索引擎或爬虫访问、爬取和索引,就可以通过robots.txt文件来禁止它们。另外,robots.txt文件还可以防止一些机器人抓取出现线上攻击或滥用等安全
匹配方式分两部分:1.path部分,2.参数部分匹配支持?*$?两种通配符?*? 表示任何有效字符的 0 个或多个个案。?$? 表示网址结束。path部分与google匹配方式保持一致,也就是只有/或是*开头的规则才有机会匹配上?/?匹配根目录以及任何下级网址?/fish??/fish?开头的匹配项* ?/fish?* ?/fish.html?* ?/fish/salmon.html?* ?/fi
页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:1)协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。2)内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。目前内容死链召回存在召回率的风险,所以建议各位站长尽量使用协议死链,以保证平台工具更好地发挥其作用