爬行、抓取、索引、收录，指的都是什么？_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

爬行、抓取、索引、收录，指的都是什么？

一位读者在蜘蛛抓取配额是什么这篇帖子留言：

不对呀，这个index标签，是指告诉蜘蛛可以抓取该页面，那么noindex不就是不允许抓取该页面吗？！那么为什么文章最后的几个说明里有“noindex标签不能节省抓取份额。搜索引擎要知道页面上有noindex标签，就得先抓取这个页面，所以并不节省抓取份额。”

留言说明，这位读者并没有太明白什么是抓取，什么是索引，index和noindex标签的意义又是什么。noindex标签不是不允许抓取该页面，是不允许索引该页面，这两者是不同的意思，有不同的功能。

看SEO有关博客和论坛时能感觉到，很多SEO并没有理解爬行、抓取、索引、收录这些概念到底指的是什么，区别在哪，noindex、nofollow、robots文件的功能又是什么。对这些概念没有精准理解，处理大型网站结构，决定什么页面需要被抓取，什么需要被索引，哪些页面需要禁止抓取、索引等等情况时，就很难明白该怎么做。甚至就像抓取配额那篇帖子的很多留言说的，提到这些情况的处理时，根本看不懂在说什么。

这么基本、重要，又比较容易混淆的SEO概念，我以为以前在博客里写过了，看了留言，翻翻以前帖子才知道，原来以前没写过。SEO实战密码书里是有写的，但SEO每天一贴里并没有写过。今天补上。

爬行是什么？

爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL，然后沿着链接发现新页面（也就是链接指向的URL）的过程。当然，蜘蛛并不是发现新URL马上就爬过去抓取新页面，而是把发现的URL存放到待抓地址库中，蜘蛛按照一定顺序从地址库中提取要抓取的URL。

抓取是什么？

抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL，访问这个URL，把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面，和用户浏览器访问一样，也会在服务器原始日志中留下记录。

索引是什么？

索引指的是将一个URL的信息进行整理，存入数据库，也就是索引库，用户搜索时，搜索引擎从索引库中提取URL信息并排序展现出来。索引的英文是index。索引库是用于搜索的，所以被索引的URL是可以被用户搜索到的，没有被索引的URL用户在搜索结果中是看不到的。

要注意的是，所谓“一个URL的信息“，并不限于蜘蛛从URL上抓取来的内容，还有来自其它来源的信息，如外部链接、链接的锚文字等。有的时候，索引库中关于这个URL的的信息，根本没有从这个URL抓取来的内容，但搜索引擎知道这个URL的存在，并且有一些其它信息。

抓取和索引不是一回事。

收录是什么？

我个人觉得收录和索引没有区别。只不过收录是从搜索用户角度看的，搜索时能找到这个URL，就是这个URL被收录了。从搜索引擎角度看，URL被收录了，也就是这个URL的信息在索引库中存在。英文并没有收录这个词，和索引用的是同一个词index。

noindex的作用是什么？

页面头信息中放上meta noindex标签是告诉搜索引擎不要索引这个URL，也就是用户搜索时找不到这个URL的信息，这个URL不会返回在搜索结果列表中。

noindex不是告诉搜索引擎不要抓取这个URL，实际上，noindex要起作用，这个URL是必须先被抓取的，不然搜索引擎怎么看到页面HTML代码中有noindex标签呢？

robots文件的作用是什么？

robots文件是告诉搜索引擎，某些URL不要抓取。注意，这里说的是不要抓取，没说不要索引。和noindex是正相反的。

nofollow的作用是什么？

给链接加上nofollow属性是告诉搜索引擎，不要沿着这个链接爬行，就当这个链接不存在。注意，nofollow只是告诉蜘蛛不要爬这个链接，没有说不要抓取链接指向的URL，也没有说不要索引链接指向的URL，nofollow既没禁止抓取，也没禁止索引。

概念说过后，指出几个SEO们经常弄不明白的情况：

没有被抓取的页面是可以被索引的

也就是说，蜘蛛没有访问和抓取这个页面（比如被robots文件禁止抓取），这个页面却有信息存在索引库中，用户搜索时还能看到。

比如，淘宝整个网站用robots文件禁止百度蜘蛛抓取，但没有用noindex禁止索引（如上面说的，禁止抓取后，就没办法禁止索引了，不抓取，就看不到noindex标签了），所以即使百度没有访问和抓取淘宝页面，但淘宝很多页面是被百度索引的，用户可以搜到的：

淘宝禁止百度抓取，但没有禁止索引

百度从网上那么多链接知道淘宝首页的存在，通过链接的锚文字也知道这个页面标题大概是淘宝之类的，当然更知道百度口碑里的评价数。所以即使百度蜘蛛没有抓取淘宝首页，用户还是能搜到，并且显示一些百度知道的信息。

要想百度不能返回淘宝首页该怎么办呢？取消robots文件的禁止抓取，页面上用noindex禁止索引。

被抓取的页面是可以不被索引的

最常见的就是上面说过的，页面头信息使用noindex禁止索引，页面被抓取，读到noindex后，不被索引，不会在搜索结果中返回。老页面新加noindex也不是马上删除索引，还会保留索引一段时间，但不会返回在搜索结果中。

加了noindex的页面上的链接是可以被跟踪一段时间的，但时间长了，有noindex的页面搜索引擎可能就不再抓取和索引了，上面的链接也就无效了。

还有可能是因为页面内容是抄袭、转载、低质量的，搜索引擎虽然抓取了页面，索引过程中检测出这些内容问题，被丢弃，没有被索引。所以页面没有被收录，通常要先检查原始日志，看看是否被抓取过，如果被抓取过，可能是内容质量问题，如果根本没被抓取，建议先看看网站结构是否有问题。

加了nofollow的链接目标页面可以被抓取和索引

前面说了，nofollow既不禁止抓取，也不禁止索引。nofollow的作用是告诉蜘蛛不要跟着这个链接爬，就当这个链接不存在，但nofollow只对这个链接起作用，对别的链接没作用，这个链接加了nofollow，不意味着别的地方就没有正常的指向这个URL的链接，只要别的地方出现了没加nofollow的链接，目标URL还是会被发现、抓取（假设没被robotx文件禁止）、索引（假设没加noindex )。

上面这些概念和应用在SEO中是很重要的，如果还没看懂，我也不知道该怎么再解释了，只能建议再多读几遍。

来源：SEO每天一贴 Zac 昝辉

Public @ 2021-09-23 16:21:52

百度搜索引擎工作原理

最新更新章节：2019-03-04关于百度以及其它搜索引擎的工作原理，其实大家已经讨论过很多，但随着科技的进步、互联网业的发展，各家搜索引擎都发生着巨大的变化，并且这些变化都是飞快的。我们设计这个章节的目的，除了从官方的角度发出一些声音、纠正一些之前的误读外，还希望通过不断更新内容，与百度搜索引擎发展保持同步，给各位站长带来最新的、与百度高相关的信息。本章主要内容分为四个章节，分别为：抓取建库；检

Public @ 2014-04-22 16:21:48

搜索引擎是怎么删除重复网页的

搜索引擎是通过比较网页URL，内容和相关属性来删除重复网页的，具体步骤如下： 1. 搜索引擎收集器(Crawler)会在网络上发现新网页并收集，此时会有一定概率发现相同的网页，并添加到收集器的索引中去。 2. 收集器会识别新的网页，把重复的网页排除。 3. 然后，搜索引擎把新索引serves给布置在 Indexer(索引器)中，执行深入索引，会把相同内容的文章及URL排除，仅保留一条记录

Public @ 2023-02-24 23:12:24

搜索引擎是怎么删除重复网页的

百度曾在站长贴吧里做过这样一个回复：从用户体验角度，“有些转载未必比原创差”。比方一篇科技原创博文，被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接，实际上对原创者是有利的，因为起到了更好的传播效果。只是国内的转载，很多是掐头去尾，使原创者比较受伤。据资料表明近似重复网页的数量占网页总数的的比较高达全部页面的29%，而完全相同的页面大约占全部页面的22%。很多站长都会抱怨，自己写

Public @ 2011-01-17 16:22:23

搜索引擎工作原理

搜索引擎是一种用来搜索巨大的获取到的信息的技术，它根据用户输入的关键字或问题，再搜索索引库中获取到的信息，以便提供相关网站页面、新闻文档、图片和其他形式的信息来回答用户提出的问题。搜索引擎的一般工作原理是，将信息经过索引化存在索引库中，用户通过输入一定的关键字搜索时，搜索引擎从索引库中搜索符合条件的结果项并返回；或者通过抓取网页技术在搜索引擎开发过程中，根据搜索引擎的网络爬虫技术逐一抓取网

Public @ 2023-02-24 00:23:15

Categories

Tags