Categories


Tags


抓取异常的原因有哪些

一、网站异常

1、dns异常

当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

2、连接超时

抓取请求连接超时,可能原因服务器过载,网络不稳定

3、抓取超时

抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足

4、连接错误

无法连接或者连接建立后对方服务器拒绝

二、链接异常

1、访问被拒绝

爬虫发起抓取,httpcode返回码是403

2、找不到页面

爬虫发起抓取,httpcode返回码是404

3、服务器错误

爬虫发起抓取,httpcode返回码是5XX

4、其他错误

爬虫发起抓取,httpcode返回码是4XX,不包括403和404

来源:百度搜索资源平台 百度搜索学堂


Public @ 2018-09-22 16:02:23

【重要公告】奥运会将近,新闻源站点注意安全防护

欧洲杯期间,百度新闻源站点被黑空前严重,除了资讯类站点成为重灾区外,我们发现许多原本安全防护工作较好的大型站点也被黑注入垃圾页面。百度新闻源运营团队迫不得已清理了大批新闻源站点,实属无奈。请被清理出新闻源的站点及时整改,方法可参考百度站长学院文章《网站被黑注入博彩色情页面指南》。未被黑的站点也请做好防护工作,具体可参考《新闻源站点防止被黑经验分享》。通过数据监测我们发现,部分新闻源站点被黑后增加的

Public @ 2021-07-12 16:06:28

【了解产品】专业问答内容质量标准

说明:本文是专业问答内容生产的指导文档,按照专业问答的内容特性,本文由headline要求、摘要质量要求、富媒体资源质量要求、落地页体验要求、其他特殊要求5个板块构成。不符合本标准的专业问答内容将直接不通过审核,无法线上展现获取流量。专业问答内容生产者应熟读本文,清晰地掌握专业问答内容质量要求从而指导内容生产,以避免无效生产带来的高投入低收益问题;有意愿申请专业问答合作的内容生产者也应当提前了解标

Public @ 2018-10-22 16:03:03

被刷流量、外链、关键词、ip如何处理?

处理被刷流量、外链、关键词和IP的方法包括以下几种方案: 1. 安装防火墙和反爬虫软件:使用防火墙和反爬虫软件可以有效阻止不法分子利用机器人程序进行刷流量、刷关键词和刷IP等行为。 2. 设置访问限制:通过设置访问限制,例如验证码、频率限制等方式,可以减少非法访问和刷流量的情况。 3. 使用CDN服务:使用CDN服务可以将流量分散到多个服务器上,有效分担被刷流量的压力,同时可以提供更好的访问

Public @ 2023-06-28 11:50:54

更多您感兴趣的搜索

0.508610s