搜索引擎中各关键功能模块功能简介_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

搜索引擎中各关键功能模块功能简介

（1）爬虫：从互联网爬取原始网页数据，存储于文档知识库服务器。

（2）文档知识库服务器：存储原始网页数据，通常是分布式Key-Value数据库，能根据URL/UID快速获取网页内容。

（3）索引：读取原始网页数据，解析网页，抽取有效字段，生成索引数据。索引数据的生成方式通常是增量的，分块/分片的，并会进行索引合并、优化和删除。生成的索引数据通常包括：字典数据、倒排表、正排表、文档属性等。生成的索引存储于索引服务器。

（4）索引服务器：存储索引数据，主要是倒排表，通常是分块、分片存储，并支持增量更新和删除。数据内容量非常大时，还根据类别、主题、时间、网页质量划分数据分区和分布，更好地服务在线查询。

（5）检索：读取倒排表索引，响应前端查询请求，返回相关文档列表数据。

（6）排序：对检索器返回的文档列表进行排序，基于文档和查询的相关性、文档的链接权重等属性。

（7）链接分析：收集各网页的链接数据和锚文本（Anchor Text），以此计算各网页链接评分，最终会作为网页属性参与返回结果排序。

（8）网页去重：提取各网页的相关特征属性，计算相似网页组，提供离线索引和在线查询的去重服务。

（9）网页反垃圾：收集各网页和网站历史信息，提取垃圾网页特征，从而对在线索引中的网页进行判定，去除垃圾网页。

（10）查询分析：分析用户查询，生成结构化查询请求，指派到相应的类别、主题数据服务器进行查询。

（11）页面描述/摘要：为检索和排序完成的网页列表提供相应的描述和摘要。

（12）前端：接受用户请求，分发至相应服务器，返回查询结果。

Public @ 2017-08-24 16:22:25

Spider抓取系统的基本框架互联网信息爆发式增长，如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游，主要负责互联网信息的搜集、保存、更新环节，它像蜘蛛一样在网络间爬来爬去，因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为：Baiduspdier、Googlebot、Sogou Web Spider等。Spider抓取系统是搜索

Public @ 2022-09-10 16:21:47

爬行、抓取、索引、收录，指的都是什么？

一位读者在蜘蛛抓取配额是什么这篇帖子留言：不对呀，这个index标签，是指告诉蜘蛛可以抓取该页面，那么noindex不就是不允许抓取该页面吗？！那么为什么文章最后的几个说明里有“noindex标签不能节省抓取份额。搜索引擎要知道页面上有noindex标签，就得先抓取这个页面，所以并不节省抓取份额。”留言说明，这位读者并没有太明白什么是抓取，什么是索引，index和noindex标签的意义又是什么。

Public @ 2021-09-23 16:21:52

搜索引擎工作原理

搜索引擎的工作原理大致如下： 1. 网络爬虫（Spider）：搜索引擎会派遣网络爬虫，搜索引擎爬虫通过扫描互联网上的网页，并收集这些网页的信息，包括标题、关键词、描述、网址、内容、超链接等。 2. 索引（Index）：搜索引擎将收集到的网页内容进行分析，提取出其中的关键词，并将这些关键词存入一个大型的索引库中，以便后续快速查询。 3. 检索（Retrieval）：当用户输入查询词时，搜索引擎

Public @ 2023-04-14 20:00:35

搜索引擎对用户搜索词如何处理，怎么判断用户搜索词的结果？

搜索引擎接收到用户输入的搜索词后，需要对搜索词做一些处理，才能进入排名过程。搜索词处理包括以下几方面:（1）中文分词。与页面索引时一样，搜索词也必须进行中文分词，将查询字符串转换为以词为基础的关键词组合。分词原理与页面分词相同。（2）指令的处置。平时咱们在搜索时会输入多个词语，实在默认的情况下，搜索引擎把多个默认的词语都依照“与”来进行词语。比方你搜索“seo”“培训”时，搜索引擎会默认咱们输入的

Public @ 2019-02-03 16:22:41

Categories

Tags