【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取（第一期）_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取（第一期）

威海Spider 威海院长帮帮忙
2385

在【院长帮帮忙】栏目露过面的站点是编织汇（www.bianzhihui.com），该站点通过反馈中心反馈页面内容迟迟不被抓取，经百度工程师追查，原来是因为页面上的无用时间信息——没有想到是不是？同学们快来看看这个案例吧。也想让院长帮助追查吗？快来看看这里！

站点求助：现象

编织汇网站内容发布后几个礼拜都未曾收录。案例如下：

http://www.bianzhihui.com/t/6717（教程详细页面举例）

http://www.bianzhihui.com/u/12306 （用户页面举例）

http://www.bianzhihui.com/h/154 （编织花样页面举例）

我们已将这些url放入sitemap，并使用了百度统计的集成的JS推荐，但是未曾有改善。

站点求助：自查

根据反馈中心的回复，使用抓取异常工具诊断：未发现异常

院长出手，内部追查

工程师结论： spider抓取很及时，但因为该网站没有设置内容产出时间，网站底部却有个老旧时间日期，导致spider误以为网页内容老旧（具体策略较复杂，在此不做赘述）。建议增加页面内容产生时间，去掉没有必要的时间信息

*以上为旧页面截图，“2014年9月9日”对时间识别造成干扰。

站点总结：

1，网页上切忌勿乱加时间，如我们网站的（始于2014年9月9日）这种时间是一个大忌

2，网页内容尽可能加上产出时间，也就是发布时间

3，百度site的结果时间和权重并无太多关系

4，跟百度沟通的时候，一定要条例清晰，证据确凿。自身的问题一定要先排查准确。

来源：百度搜索资源平台百度搜索学堂

Public @ 2015-07-21 15:22:04

头条搜索站长平台-关于Bytespider

威海Spider 威海Bytespider
1663

头条搜索UA介绍头条搜索的爬虫UA为“Bytespider”首写字母为大写,例如：PCMozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36AndroidMozilla/5.0 (

Public @ 2016-11-30 15:39:00

【官方说法】只需两步，正确识别百度蜘蛛（User-Agent）

威海Spider 威海Baiduspider
1863

步骤一：查看User-Agent字段，百度蜘蛛的User-Agent为：Baiduspider 步骤二：查看IP来源，如果IP来源为baidu.com，则为百度蜘蛛。

Public @ 2023-06-14 09:00:07

【院长帮帮忙】流量断崖式下跌，如何自查恢复？（第七期）

院长近期收到一个VIP站点反馈，站点下的所有收录都没有了，站点流量断崖式下跌，先来看看这扎心的图：PC端流量变化：移动流量变化：院长解答：出现这种情况，首先要站长观察流量下滑期间站点是否有异常，并自查以下步骤：1. 网站自查发现自己出现过服务器异常，服务器错误导致页面失效，需尽快恢复站点服务器；这里推荐使用站长平台“抓取异常工具”&“抓取诊断工具”，可整体统计站点近期抓取问题，模拟蜘蛛抓取

Public @ 2014-02-02 15:22:05

【院长帮帮忙】网站被黑，到底是谁的责任？（第九期）

很多网站会突然找院长反馈，说网站突然出现了很多奇怪的页面，虽然域名是自己网站的，但是内容都不是网站发布的，而且一般都是赌博等内容；或者还有站长反馈，百度抓了自己网站的好多内容，而且这些内容都是博彩内容，但是网站并没有这些啊，百度出什么问题了？要求百度尽快处理问题！关于以上的这些问题，曲曲小姐姐再次给大家强调一下。如果网站突然出现大量的赌博等内容，这是网站被黑了啊，这肯定是网站自己的问题引起的，也只

Public @ 2014-01-07 15:22:07

Categories

Tags