Categories


Tags


通过robots.txt文件屏蔽蜘蛛抓取不存在的后缀

通过网站日志分析,会发现搜索引擎蜘蛛抓取了一些网站上不存在的文件后缀,如:.php、.asp、.aspx等。

搜外网站后台日志分析结果如下图:

image.

搜外主站实际上不存在php后缀的URL地址。

可通过robots.txt文件禁止蜘蛛抓取不存在的后缀,减少出现404返回值。

在robots.txt文件填写屏蔽规则如下:

Disallow: /*.asp$

Disallow: /*.php$

Disallow: /*.aspx$

注意前面一个*,后面一个$,代表后缀。

参考搜外的robots.txt文件写法,点击这里

来源:搜外网


Public @ 2015-07-18 16:09:24

URL是什么?URL里包含关键词对收录有帮助吗?

URL是什么URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它URL结构由两部分组成,第一部分是协议,就是大家在网址前边看到的一串字母,最常见的就是HTTP和HTTps,一般在下图所示的位置。第二部分就是大家最常见的服务器名称或者IP地址,通俗点来说

Public @ 2013-12-29 16:11:13

360搜索站长平台Sitemap提交流程

1.进入360搜索站长平台,点击左侧菜单栏的“Sitemap”选项。 2.点击“添加Sitemap”按钮。 3.填写Sitemap的相关信息,包括Sitemap的URL、名称、语言、文件类型等等,最后点击“保存”按钮。 4.返回Sitemap列表页面,将新添加的Sitemap展开,点击“立即提交”按钮。 5.等待搜索引擎爬虫抓取Sitemap,并开始对站点进行索引。 6.查看S

Public @ 2023-04-27 09:00:06

Robots META标签的写法

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。INDEX 指令告诉搜索机器人抓取该页面;FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;Robots Me

Public @ 2019-08-04 16:09:30

禁止搜索引擎收录的方法

禁止搜索引擎收录的方法什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分

Public @ 2016-10-21 16:09:20

更多您感兴趣的搜索

0.479386s