Categories


Tags


搜索引擎对用户搜索词如何处理,怎么判断用户搜索词的结果?

搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。

搜索词处理包括以下几方面:

(1)中文分词。与页面索引时一样,搜索词也必须进行中文分词,将查询字符串转换为以词为基础的关键词组合。分词原理与页面分词相同。

(2)指令的处置。平时咱们在搜索时会输入多个词语,实在默认的情况下,搜索引擎把多个默认的词语都依照“与”来进行词语。比方你搜索“seo”“培训”时,搜索引擎会默认咱们输入的“seo培训”来进行处置,独自包括“seo”或者“培训”的网站内容实践上将不会返回,但实际情况往往也会呈现独自包括一个词语的网站。另外,还要处置各种高等搜索指令的词语,比方加号减号等。

(3)停止词。和索引时一样,搜索引擎也需要把搜索词中的停止词去掉,最大限度地提高排名相关性及效率。

(4)过错纠正。用户如果输入了明显错误的字或英文单词拼错,搜索引擎会提示用户正确的用字或拼法。

(5)整合搜索触发。某些搜索词会触发整合搜索,比如明星姓名就经常触发图片和视频内容,当前的热门话题又容易触发资讯内容。(搜外网)


Public @ 2019-02-03 16:22:41

360搜索新闻源常见分类

大类别:新闻频道(新闻频道往往包含所有频道的重要新闻)。地域类别:国际、国内、地方。垂直类别:时政、社会、娱乐、科技、财经、时尚、体育、汽车、房产、健康、游戏、教育、旅游、数码、军事、法治、评论、女性等。新闻形式类别:文字、图片、视频。

Public @ 2011-10-19 15:34:14

我想从搜索结果中彻底删除某个网页

为确保永久删除您的内容,请进行以下某项操作。如果您没有进行相应操作,那么您的网站稍后可能会重新显示在搜索结果中。A.如果网页已不存在,请确保服务器返回 404(未找到)或 410(不存在)。这样可让搜狗知道该网页已不存在,无需再在搜索结果中显示。B.如果网页仍存在,但您不想让其显示在搜索结果中,请使用 robots.txt 阻止 sogou spider 进行抓取。请注意,在通常情况下,即使您已通

Public @ 2010-05-25 15:35:25

搜索引擎网页去重算法分析

相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!搜索爬虫抓取会产生网页重复的类型:1.多个URL地址指向同一网页以及镜像站点如:www.sina.com 和www.sina.c

Public @ 2020-07-15 16:21:55

搜索引擎怎样抓到你?

搜索引擎通常通过以下方式来抓取您的网页内容: 1. 网站提交:您可以将您的网站提交给各大搜索引擎,以便搜索引擎了解您的网站存在。 2. 网络爬虫:搜索引擎使用自己的网络爬虫程序,定期检索并抓取互联网上的内容。当您的网站被网络爬虫访问时,搜索引擎就可以抓取您的网页内容。 3. 外部链接:如果您的网站被其他网站所链接,搜索引擎可以通过这些链接进入您的网站并抓取您的网页内容。 4. 社交媒体:如

Public @ 2023-06-07 04:00:10

更多您感兴趣的搜索

0.699862s