怎样看原始日志文件_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

怎样看原始日志文件

威海seo专题威海网站日志
2915

读者hiisee问

请问如何用PHP脚本在后台获取蜘蛛的详细信息呀？如哪里的蜘蛛／何时来的／搜索了哪几个页面／哪些它喜欢哪些不喜欢等，和判断浏览器是不是用一样的技术？谢谢，再次麻烦您了．

刚好关于流量统计和分析以前还没有谈过，这两天分几个方面专门谈一下。今天先来谈作为SEO，怎样读服务器原始日志文件(server raw logfile)。

网站服务器会把每一个访客来访时的一些信息自动记录下来，存在服务器原始日志文件中。

一般主机提供商会在控制面板提供给你下载这个文件，如果你的主机提供商不提供原始日志文件的话，你就该换地方了。

原始日志文件只是一个纯文字形式的文件，只要用文字编辑软件如WordPad或Notepad打开就可以了。

下面是我从上个月这个blog本身的日志文件中随机选取的一行，我们来看一下它包括哪些信息：

221.201.77.63 – – [02/Jul/2006:15:30:41 +0800] “GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1” 200 19031 “http://www.baidu.com/s?

wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)”

（注：虽然上面是很久以前的日志中的一段，但现在的日志文件所包含的信息格式是一样的，完全没有变化）

用户IP地址

221.201.77.63

这是访问人所使用的IP 地址，能够告诉你来访的人来自什么地理位置。如果你查一下这个IP地址所属位置，可以看到这位访客来自中国北京。

日期/时间

02/Jul/2006:15:30:41

这是某一个文件被访问的时间，和IP地址结合起来，你就可以跟踪某一个特定的用户，从一个网页到另一个网页的访问顺序。

时区

+0800

这个数字是相对格林威治时间的时区差多少，北京处于东8区。

服务器动作

GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1

服务器要做的动作要么是GET，要么是POST。除了一些CGI脚本外，通常都应该是GET，也就是从服务器上获取某个网页或图片文件。

例子里的这行意思就是按HTTP/1.1协议(protocol)获取文件/seoblog/2006/04/17/user-friendly-website/

返回状态码

200

下一行是服务器反应是否成功。200就是说成功获取了文件，如果是返回了404，就是文件没有找到。401是需要密码，403禁止查看，500服务器错误，当然还有其他很多服务器状态码。

文件大小

19031

这一行指的是所获取的文件大小，在我们的来自例子里是19031 byte。

访客来源

http://www.baidu.com/s?wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3

这一段是告诉我们访客是从哪里来到这一个网页。有可能是同一个网站的其他页，有可能是来自搜索引擎的搜索页，也可能是来自其它网站的链接。

例子里的是来自百度，搜索关键词是”PRADA官方网站”。

这段信息以前是非常重要的，流量分析系统可以从这个信息统计出搜索用户是搜索了什么关键词访问你的网站。可惜的是，现在所有搜索引擎都已经屏蔽了这段关键词信息，我们只能知道流量来自哪个搜索引擎，无法知道是来自什么关键词。

浏览器类型

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)

这最后一段所表示的是浏览器和用户电脑的一些信息。

比如上面这一段所表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器，Windows NT操作系统，浏览器是IE6.0，装有Alexa Toolbar。

在这一段如果用户使用的是其他类型电脑或浏览器，或者来访问的是搜索引擎蜘蛛，你还可能看到这些代码:

Baiduspider+(+http://www.baidu.com/search/spider.htm)

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Maxthon; Alexa Toolbar)

http://www.gougou.com RSS Online Reader

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

意义不用解释，一看就知道了。

跟踪用户轨迹

这是很多网站运行者需要研究的地方。

从日志文件中剔除对图片的访问，剔除中间插进来的其他访客的信息，只把来自某一个IP地址的用户在一段时间内所看的网页列出来，我们就能看到这个用户在你的网站上都做了哪些行动，看了哪些网页。

用户行为信息给网站运行者提供很大的帮助。

来源：seo每天一贴 Zac 昝辉

Public @ 2013-10-12 15:32:49

原文标题：The A to Z Guide to Getting Website Traffic原文作者：Shawn Campbell原文地址：http://www.sitepronews.com/archives/2006/apr/12.html这是孙波翻译的一篇文章，主要讲的是英文网站开发的文章，大部分内容对于中文内容的网站也有指导意义，供参考。转载本文请保留原文出处和作者以及翻译作者信息。以

Public @ 2014-04-07 15:26:53

外贸SEO技巧:做外贸SEO一定要考虑这些细节上的处理

威海seo专题威海外贸seo
2956

1. 关键词研究和优化：在进行外贸SEO之前，需要先进行关键词研究，确定哪些关键词与你的产品或服务相关，并在网站的标题、Meta标签、内容和URL等位置进行优化。 2. 做好网站结构优化：确保网站的结构清晰、简洁，方便搜索引擎抓取和索引。内部链接的设置要合理，方便用户和搜索引擎浏览和导航。 3. 内容优化和更新：提供有价值的内容对于外贸SEO非常重要。定期更新网站内容，包括产品信息、行业资讯和

Public @ 2023-07-29 03:50:36

日志中显示页面被抓取了，会收录吗？

威海seo专题威海网站日志
3152

如果页面已经被抓取并且已经收录在搜索引擎的数据库中，那么搜索引擎可能会更新该页面的索引，以反映新的内容。但是，如果页面被抓取但尚未收录，则需要等待搜索引擎对页面进行评估和选择是否收录。因此，能否收录页面取决于搜索引擎的算法和实际情况。

Public @ 2023-03-28 07:50:10

日志中显示页面被抓取了，会收录吗？

威海seo专题威海网站日志
2570

日志记录并不是搜索引擎收录的直接因素，因此页面被抓取并不代表会被收录。收录与抓取相关，但并不完全取决于抓取。搜索引擎根据页面内容的质量、权威度、更新频率等多方面因素进行评估，如果页面符合搜索引擎的收录标准，才有可能被收录。

Public @ 2023-04-18 06:50:05

Categories

Tags