Categories


Tags


蜘蛛抓取过程中涉及的网络协议有哪些

搜索引擎通过站长们提供资源,来满足用户的搜索需求,而站长通过搜索引擎将网站的内容传播出去,获得有效的流量和用户。

蜘蛛在抓取过程中双方都要遵守一定的规范,便于搜索引擎抓取,不要使用过多对搜索引擎不友好的元素。

蜘蛛抓取过程中涉及的网络协议有以下四种:

1、HTTP协议

HTTP是超文本传输协议,在互联网上被广泛应用的一种网络协议,客户端和服务器端请求和应答的标准。

用户通过浏览器或蜘蛛等对指定端口发起一个请求,HTTP的请求会返回对应的httpheader信息,可以直接查看到是否成功、服务 器类型、网页最近更新时间等内容。

2、HTTPS协议

HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。

部署HTTPS是需要购买SSL证书上传到服务器,网站开启HTTPS:第一可以确保数据在传输过程中的安全性,第二用户可以确认网站的真实性。

3、UA属性

UA是HTTP协议中的一个属性。通过UA让服务器可以识别出用户使用的操作系统、浏览器等等,根据相应的格式进行页面的调整,为用户提供更好的浏览体验。

4、Robots协议

搜索引擎在访问一个网站时,首先会查看网站的根目录下的robots.txt文件,如果网站上不想被搜索引擎抓取的页面,可以通过设置robots.txt文件告知搜索引擎。

注意: robots.txt必须放在网站根目录下,且文件名要小写。

有关robots.txt文件的创建可以参考【robots.txt】

来源:搜外网


Public @ 2012-07-29 16:22:31

apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取(适用vps云主机服务器)

在VPS云主机服务器上,可以通过以下方式屏蔽拦截蜘蛛抓取: 1. Apache服务器: 在Apache配置文件(httpd.conf或apache2.conf)中添加以下代码: ``` SetEnvIfNoCase User-Agent ".*((Googlebot)|(Baiduspider)|(Yahoo! Slurp)|(bingbot)|(YandexBot)).*" bad_bot

Public @ 2023-06-20 14:00:28

Google爬行缓存代理(crawl caching proxy)

Google爬行缓存代理是指一个系统或应用程序,作为一种中间层,扮演缓存服务器的角色,将已抓取的网络页面存储在缓存中,等待后续的请求。在Google上,这个代理系统用于加速用户访问网站的过程,提高网站的响应速度,并减少搜索引擎爬虫的访问量。通过这种方式,Google能够有效地降低网站的负载,并利用缓存的内容来提高用户的搜索体验。Google的爬行缓存代理充分体现了其对网络性能和用户体验的重视,也是

Public @ 2023-04-02 07:00:11

搜索引擎蜘蛛劫持是什么?怎么判断是否被劫持

搜索引擎蜘蛛劫持是seo黑帽中常用的一种手法,需要一定的技术支持getshell,然后上传恶意的代码到网站根目录下面或者修改网站的一些文件,搜索引擎蜘蛛劫持的原理就是判断来访网站的是用户还是蜘蛛,如果是蜘蛛就推送一个事先准备的恶意网站,如果是用户就推送一个正常的网页1:蜘蛛判断判断访问的是用户还是蜘蛛,如果是用户就推送一个正常网页,如果是蜘蛛就推送一个恶意网页,判断方式有两种,一种是判断蜘蛛的UA

Public @ 2017-05-29 16:22:36

更多您感兴趣的搜索

0.467376s