Categories


Tags


Google的奇怪规则:URL不能以.0结尾

前两天SEOMoz发现和解决了一个很奇怪的Google收录问题。

SEOMoz有一个网页,是关于他们举办的Web 2.0大奖(Web 2.0 Awards)。URL是:

http://www.seomoz.org/web2.0

这个奖在网上还挺受欢迎,链接很多,URL是PR7。而且一直以来在Google搜索”Web 2.0 Award”时都排在第一位。

但前几天SEOMoz发现搜索Web 2.0 Award时,这个页面从Google消失了。排在最前面的是一个更深一层的页面。

SEOMoz也弄不清是这么回事。所以Rand联系了Google里面认识的人,Google的人建议最好把URL改成不以.0结尾。

注意看SEOMoz这个页面URL,后面没有跟着一个斜线/。在大部分情况下,URL结尾没有典型文件扩展名如.html,.php等时,URL会被当作目录,目录名后面没有斜线时,服务器会在后面自动加上一个斜线。比如SEO每天一贴,如果用户直接打开:

https://www.seozac.com/

或者有其他网页链接到上面这个URL,服务器都会自动做一个301转向到:

https://www.seozac.com/

由于某种原因,SEOMoz的这个URL并没有做301转向自动在目录后加上斜线,也就是说URL还是以.0结尾:

http://www.seomoz.org/web2.0

浏览器和蜘蛛就把这个URL当作了文件名,这个文件的扩展名(或者说文件类型)是.0。而.0文件Google拒绝收录,就像.exe文件一样。

SEOMoz做了很多调查,发现页面没被收录问题确实是因为这个以.0结尾的URL。在网上找不到以.0结尾的文件被收录在Google数据库中。像以下这些文件在Google都没收录,但雅虎有收录:

en.wikipedia.org/wiki/Windows_1.0

en.wikipedia.org/wiki/Web_2.0

http://en.wikipedia.org/wiki/Die_Hard_4.0

drupal.org/drupal-5.0

keznews.com/3799_Vista_Transformation_Pack_8.0_Final_-_VTP_8.0

en.wikipedia.org/wiki/BASIC_8.0

drupal.org/drupal-6.0

en.opensuse.org/OpenSUSE_11.0

www.shopping.com/xGS-Illustrator_11.0

www.mythtv.org/wiki/index.php/Opensuse_11.0

www.shopping.com/xGS-Suse_9.0

en.wikipedia.org/wiki/Mac_OS_X_10.0

en.opensuse.org/Bugs:Most_Annoying_Bugs_10.0

而非常相似的下面这些URL,Google就有收录:

en.wikipedia.org/wiki/Web_2

drupal.org/drupal-5.0-beta1

http://keznews.com/3799_Vista_Transformation_Pack_8_0_Final_-_VTP_8_0

drupal.org/drupal-6.0-beta1

www.mythtv.org/wiki/index.php/Opensuse_10.3

www.mythtv.org/wiki/index.php/Opensuse_10.2

en.opensuse.org/Bugs:Most_Annoying_Bugs_10.3

比较一下这两个URL,域名,链接深度等几乎都没什么区别,唯一的区别就是URL结尾的不同:

en.opensuse.org/Bugs:Most_Annoying_Bugs_10.3 收录

en.opensuse.org/Bugs:Most_Annoying_Bugs_10.0 没收录

SEOMoz发现了这个问题后,发了一篇帖子。很快Matt Cutts也回了篇帖子,做出了回复和调整。Matt Cutts说,是因为连到URL

http://www.seomoz.org/web2.0

的链接足够多时使Google认为它是应该被收录的那个URL版本,但Google又不收录.0文件,所以SEOMoz的这个页面被删除了。

Matt Cutts还提到一个小技巧,要检查某种文件名是否会被Google中被收录,有一个很简单的指令如:

filetype:exe

上面的搜索结果可以看到,没有直接以.exe结尾的URL被收录,也就是说.exe文件Google不收录。

同样.0文件Google一直到两天前还都不收录。不过Matt Cutts看到SEOMoz的这个帖子后,与工程师重新审视了一下现在以.0结束的URL,肯定也不都是垃圾页面(可能以前大部分是),所以对Google收录算法做了一定调整,重新开始收录.0文件。其实很多网页以.0结束,并不是因为文件类型,而是像SEOMoz那样,在想写Web2.0时,很巧合的以.0结尾而已。

现在搜索一下的话,已经可以看到SEOMoz的这个Web2.0奖网页已经重新被收录了:

第一,这种细节问题,不碰到还真想象不到。

第二,认识人好办事。

第三,Google经常也从善如流。

来源:seo每天一贴 Zac 昝辉


Public @ 2013-10-31 15:34:40

负面SEO新方法:用户体验攻击

搜索引擎是目前最复杂的系统之一,正因为复杂,就无法100%避免漏洞的存在。有的SEO不是努力把自己的网站排名做好,而是研究怎样恶意把竞争对手拉下来,这就是负面SEO,negative seo。这是挺没劲的做法,但现实中每天都在发生着。读者感兴趣的话可以参考常见负面SEO贴子,不是提倡大家去使用,我自己就深受其害,当然不会提倡,而是提醒SEO们怎样鉴别和防备。今天帖子主要说一下最近开始兴起的负面SE

Public @ 2011-02-14 16:14:22

关于网站出现“该页面因服务器不稳定可能无法正常访问”的提示处理方法

近期我们接到一些用户反馈:网站出现“该页面因服务器不稳定可能无法正常访问”的提示。这是由于网站访问不稳定造成。搜索引擎在抓取网站时,如发现网站经常无法访问,就会在搜索结果中出现此类提示。请各位站长遵循我们近期发布的《360网页质量白皮书》,对网站访问的可用性,稳定性进行良好的优化和提升!发现被标记的排查方法,以及标记去除的方法:核实网站是否拦截了360搜索蜘蛛,并导致蜘蛛下载站点失败,建议在服务器

Public @ 2021-09-05 16:14:02

怎样做SEO有利于搜索引擎索引收录(1)

怎样做SEO有利于搜索引擎索引收录,即如何构建便于搜索引擎识别、索引、展现的移动网站。以下将从域名、服务器、加载速度、站点结构、URL结构、PC站与移动站适配、网站被动抓取、网页筛选建库8个方面来分别讲解:1、域名与PC网站一样,域名越短越好。一个好的移动域名,不仅容易记忆、易于输入,还能方便用户向其他人推荐。短并且具有语义化特性的域名让用户更直观地了解网站主旨。2、服务器域名选好了之后,就要配置

Public @ 2011-11-27 15:55:35

百度只收录首页不收录内页:

这个说法是不准确的。百度是一个搜索引擎,它会根据网站的质量和重要性来决定是否收录它的页面。百度通常会首先收录一个网站的首页,但也会收录该网站的内页。然而,更重要、独特且有价值的内容往往会更受百度的青睐,收录其内页的概率也更高。因此,网站所有页面的质量和内容对于被百度收录至关重要。

Public @ 2023-07-21 18:50:13

更多您感兴趣的搜索

0.335541s