robots协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫扫除规范”(RobotsExclusionProtocol),网站经过Robots协议通知查找引擎哪些页面可以抓取,哪些页面不能抓取
是查找引擎的一部分来定位和索引互联网上的每个可能答复查找恳求的网页,一般只在评论robots的HTML标签或许robots.txt文件的时分运用。
Public @ 2010-10-17 15:26:25
链接农场(Linkfarm)是指大量的虚假网站,网站间互相交换链接以提高搜索引擎排名。这些网站通常充斥着大量没有意义的关键字和低质量的内容,旨在欺骗搜索引擎算法,使其排名更高。链接农场不仅不会提供任何有价值的信息,而且可能会损害搜索引擎结果的质量和可信度。因此,搜索引擎通常会采取措施来打击链接农场,并将这些网站从搜索结果中删除。
就是某个主题有许多链接所指向的网页。
robots.txt概念如果我们网站内有某些特殊的文件不让搜索引擎收录,那怎么办?答案是:使用一个叫做robots.txt的文件。robots.txt文件告诉搜索引擎本网站哪些文件是允许搜索引擎蜘蛛抓取,哪些不允许抓取。搜索引擎蜘蛛访问网站任何文件之前,需先访问robots.txt文件,然后抓取robots.txt文件允许的路径,跳过其禁止的路径。总结:robots.txt是一个简单的.txt文件
可以在Robot协议文件中添加"User-agent:*"以及"Disallow: /images/",这样Robot就会禁止抓取图片。