通过robots.txt文件屏蔽蜘蛛抓取不存在的后缀_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

通过robots.txt文件屏蔽蜘蛛抓取不存在的后缀

通过网站日志分析，会发现搜索引擎蜘蛛抓取了一些网站上不存在的文件后缀，如：.php、.asp、.aspx等。

搜外网站后台日志分析结果如下图：

image.

搜外主站实际上不存在php后缀的URL地址。

可通过robots.txt文件禁止蜘蛛抓取不存在的后缀，减少出现404返回值。

在robots.txt文件填写屏蔽规则如下：

Disallow: /*.asp$

Disallow: /*.php$

Disallow: /*.aspx$

注意前面一个*，后面一个$，代表后缀。

参考搜外的robots.txt文件写法，点击这里

来源：搜外网

Public @ 2015-07-18 16:09:24

1、在网站地图的文本和超级链接里提及最主要的关键词短语，帮助搜索引擎来识别所链接的页面主题是什么。2、为每一个链接提供一个简短的介绍，以提示访问者这部分内容是关于哪方面的。3、提供文本链接到你站点上最主要的页面上；根据您的网站大小，网页数目的多少，甚至可以链接到所有的页面。4、为搜索引擎提供一条绿色通道，使搜索引擎程序把主要网页迅速收录进去。5、当用户查寻网站上原来看过的相关信息时，告诉他们如何去

Public @ 2022-10-25 16:09:52

产生复制内容的原因

下面这几个问题可能造成复制内容。1.代理商和零售商从产品生产商那里转载产品信息。2.网页内容由RSS生成。3.转载及抄袭。4.镜像网站。5.URL任意加字符还是返回200状态码。6.打印版本。7.产品或服务类型之间的区别比较小。8.使用Session ID。9.网站结构造成的各种页面版本。10.网页实质内容太少。来源：搜外网

Public @ 2022-01-21 15:18:31

360搜索对Robots协议的扩展

360搜索对Robots协议进行了扩展，增加了以下几个指令： 1. User-Agent：用于指定搜索引擎访问网站时使用的用户代理字符串，可以设置多个User-Agent。 2. Crawl-delay：用于指定搜索引擎访问网站时的延迟时间，单位为秒。可以设置针对不同的User-Agent的延迟时间。 3. Sitemap：用于指定网站的sitemap文件的地址，搜索引擎将通过该文件获取站点

Public @ 2023-05-29 17:00:21

robot.txt在SEO中的作用

鉴于网络安全与隐私的考虑，搜索引擎遵循robots.txt协议。通过根目录中创建的纯文本文件robots.txt，网站可以声明不想被robots访问的部分。每个网站都可以自主控制网站是否愿意被搜索引擎收录，或者指定搜索引擎只收录指定的内容。当一个搜索引擎的爬虫访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果该文件不存在，那么爬虫就沿着链接抓取，如果存在，爬虫就会按照该文

Public @ 2023-01-27 16:09:31

Categories

Tags