Categories


Tags


利用百度蜘蛛referer找到报错页面入口

大家应该都知道百度已经全站https并取消referer关键词显示了,那么“百度蜘蛛referer”又是什么?有什么妙用吗?艺龙SEO负责人刘明发现通过百度蜘蛛referer可以快速定位部分站内url的报错(4xx或者5xx)原因。随后社区版主飞鹰正义也对文章做了补充修正,现推荐给各位同学们。

什么是百度蜘蛛的referer

百度蜘蛛的referer,是指当百度蜘蛛抓取某一个URL的时候,在HTTP头中带的Referer字段。请注意,这个定义和百度最近声明去除Referer中关键词数据没有任何关系。这次讲的是spider发起的HTTP请求,百度而去除的是用户发起的。如果百度蜘蛛抓取百度首页的logo,会发起这样的请求:

上面Referer字段很明确的表示了他是从www.baidu.com这个页面上发现并抓取了www.baidu.com/img/bd_logo1.png。而大家在服务器访问日志中也应该能看到相应的记录。目前发现只有当百度抓取一个网页的同时,又抓取了网页中的:img、js和css才会带上referer字段。这部分额外的抓取量,应该不会占用百度分配的抓取配额,属于“买1送1”。

对于站长的意义

如果你发现有一批URL(仅限于img,js,css)报错(4xx或者5xx),但是一直找不到入口在哪,也就是说你不明白百度蜘蛛是从哪里发现这些错误URL的。这个字段可以帮助你迅速定位。

举个例子

比如我们的SEO日志分析系统中可以看到,符合下面这种URL Pattern的路径每天有6万到10万的抓取而且全部报404。

从发现问题至今过了1个月,查遍整个网站我也没找到入口。今天偶然仔细查了一下日志,想起了百度蜘蛛的referer,马上就能定位问题了。这些404的URL来自于一套没人维护也没人关注的页面(往往是这样)。收录流量都不错。由于最近公司图片系统更新,图片的URL全部更改了,但这套页面并没有跟着更新。

如果站点没有记录referer怎么办

iis请在这里勾选“cs(Referer)”:

apache请参考:

apache log配置“Combined Log Format”章节

apache log配置的官方链接

Nginx请参考:

nginx log配置

nginx log配置的官方链接

结束语

· 很多SEO问题并不是立即致命的,所以没有及时解决。流量就像蚂蚁啃大象一样一点一点啃掉了。

· 系统性的知识积累还是会在关键时刻发挥作用的。

· 感谢飞鹰对本文的修正。

至此文章虽然结束但是讨论可以继续,大家可以到[学堂同学汇] 《利用百度蜘蛛referer找到报错页面入口》讨论帖,与作者刘明进行探讨。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2012-04-14 15:38:46

视频极速体验解决方案

1. 升级硬件 - 首先要确保你的设备硬件配置达到了视频播放所需的最低配置要求,如CPU、RAM、显卡等。 2. 优化网络 - 无论你使用的是有线网络还是无线网络,都要确保网络稳定、速度快。可以尝试通过升级网络设备、更换网络提供商或使用网速优化软件等方式来优化网络性能。 3. 使用硬件加速 - 一些常见的播放器(如VLC)支持硬件加速播放,可以大幅提高视频播放速度和质量。 4. 缓存视频 -

Public @ 2023-03-30 16:00:26

浅谈网站换域名注意事项

网站想要换域名,该怎么做?一直是站长咨询较多的问题,学堂特意邀请刚刚完成网站换域名的版主三木,给大家分享下如何换域名:这里说的网站改版,并不包含单纯的页面样式的改动,仅指原页面URL发生了改变,比如换域名、修改URL结构等。对于百度来讲,是不建议在网站改版过程中换域名或改动原来页面URL的,只要你这么做,网站排名和收录绝对会有影响,影响有多大,主要看你是如何操作的,下面就简单介绍下上述改版行为的几

Public @ 2015-03-14 15:36:35

如果快照显示网页不完整,是不是说明BaiduSpider没有完整收录网页?

不一定,BaiduSpider 可能没有完整收录网页,也可能完整收录但快照却不完整。例如,某个网页上的脚本可能没有加载完成,这样就可能造成快照显示不完整,又或者,BaiduSpider完整把网页收录了,但是Baidu在生成快照时,出现了问题,导致快照不完整。

Public @ 2023-02-24 19:00:13

如何识别Baiduspider

上周百度站长平台接到某站长求助,表示误封禁了Baiduspider的IP,询问是否有办法获得Baiduspider的所有IP,打算放入白名单加以保护,防止再次误封。在此要告诉各位站长,Baiduspider的IP池是不断变动的,我们无法提供IP全集。除此之外,之前还有站长发来质疑说Baiduspider光顾过于频繁,已超越服务器承受能力。而百度站长平台追查发现,Baiduspider对该站点的抓取

Public @ 2017-03-14 15:38:44

更多您感兴趣的搜索