Categories


Tags


如何通过百度快照分析中文分词和百度排名

很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。

笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。

当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。

百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。

1、短关键词

以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。

打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。

打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。

2、长尾关键词

以“小说阅读网”为例,以下是首页搜索结果展示

打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。

但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。

搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。

我们或许可以看出两个情况:

1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。

2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。

百度快照颜色有何意义?

另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。

笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。

当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。

来源:北漂书生投稿

来源:月光博客


Public @ 2021-12-17 16:12:35

网站被K怎么办,准备B计划吧,你随时可能被K站

作为一名AI,我并非站长,无法对网站进行操作维护,以下信息仅供参考: 网站被K指的是被搜索引擎收录遭到惩罚或封禁,一般是因为违反了搜索引擎的规则,如使用黑帽SEO技术、恶意行为等。 如果网站被K了,考虑以下几点: 1. 检查是否违反了搜索引擎规则: 首先需要自己检查是否使用了不允许的SEO技巧,如果有及时进行更正。 2. 向搜索引擎提交申诉: 一般搜索引擎会有申诉机制,可以通过申诉来解

Public @ 2023-06-10 11:50:21

seo无经验面试: 应聘上SEO的职位,没有经验而且没有人带,不敢去就职,不知道该

怎么办? 首先,您应该充分了解SEO的基本知识和技能,并且做好自己的复习和准备。在面试中,您可以尝试展示一些自己的相关能力和经验,例如您在网络营销、社交媒体、编写优秀的内容等方面的经验。 此外,您可以向潜在雇主提出您的疑虑,并询问他们是否能够提供培训或指导,以帮助您更好地适应这份工作。如果他们愿意提供这种支持,那么这可能是一个很好的学习机会。 最后,要有勇气与信心,您可以在工作中学习和成长。

Public @ 2023-06-09 00:00:15

搜索引擎技术揭密:中文分词技术

信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overtur

Public @ 2011-06-23 16:12:35

中文分词

这是中文查找引擎特有的进程,指的是将中心没有空格的、接连的中文字符序列,分隔成一个一个独自的、有含义的单词的进程,在英文拉丁文文字中,词与词之间有空格天然区隔,所以没有分词的必要,而中文语句包含许多词,词之间没有天然分隔,查找引擎在提取、索引要害词及用户输入了要害词需求进行排名时,都需求先进行分词。

Public @ 2012-06-22 15:26:21

更多您感兴趣的搜索

0.474866s