Categories


Tags


搜索引擎工作原理

基本流程

抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(Spider)。爬虫顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

搜索引擎的自动信息搜集功能

提交网站搜索。站长主动向搜索引擎提交网址,它在一定时间内定向向你的网站派出爬虫,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则相对于过去已发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此站长应该在网站内容上多下功夫,并让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

我们想说的是您应该将您优化的重心和出发点主要放在用户体验上,因为用户才是您网站内容的主要受众,是他们通过搜索引擎找到了您的网站。过度专注于用特定的技巧获取搜索引擎自然搜索结果的排名不一定能够达到您想要的结果。

来源:搜狗资源平台


Public @ 2015-11-08 16:21:49

搜索引擎怎样判断文章或网页的原始出处?

复制内容网页有的时候会影响网页排名。比如说原本是你写的文章,本来应该排名很好,但是其他人抄袭或转载你的文章,而且搜索引擎不幸的判断那篇被抄袭或转载的网页是原始出处的话,你应有的排名就会被那个网页夺走。那么搜索引擎怎样才能从多个网页中挑出哪一个是原始出处呢?可能有以下几个考虑:1)网页PR值。网页PR值越高,被认为是原始版本的可能性就越大。2)网页第一次被收录的时间。网页被搜索引擎收录的时候越早,相

Public @ 2017-04-29 16:21:50

搜索引擎网页去重算法分析

相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!搜索爬虫抓取会产生网页重复的类型:1.多个URL地址指向同一网页以及镜像站点如:www.sina.com 和www.sina.c

Public @ 2020-07-15 16:21:55

搜索引擎体系结构

搜索引擎基本结构一般包括:搜索器、索引器、检索器、用户接口等四个功能模块。1、搜索器:搜索器也叫网络蜘蛛,是搜索引擎用来爬行和抓取网页的一个自动程序,在系统后台不停歇地在互联网各个节点爬行,在爬行过程中尽可能快的发现和抓取网页。2、索引器。它的主要功能是理解搜索器所采集的网页信息,并从中抽取索引项。3、检索器。其功能是快速查找文档,进行文档与查询的相关度评价,对要输出的结果进行排序。4、用户接口。

Public @ 2018-03-04 16:22:54

搜索引擎工作原理

搜索引擎的工作原理大致如下: 1. 网络爬虫(Spider):搜索引擎会派遣网络爬虫,搜索引擎爬虫通过扫描互联网上的网页,并收集这些网页的信息,包括标题、关键词、描述、网址、内容、超链接等。 2. 索引(Index):搜索引擎将收集到的网页内容进行分析,提取出其中的关键词,并将这些关键词存入一个大型的索引库中,以便后续快速查询。 3. 检索(Retrieval):当用户输入查询词时,搜索引擎

Public @ 2023-04-14 20:00:35

更多您感兴趣的搜索

0.604106s