Categories


Tags


网站文章内链的一个思路

内链:顾名思意就是在自己网站的内容中的相关文字加入链接,并且链接到网站内部的相关页面。合理的网站内空链接构造,能提高搜索引擎的收录与网站权重。相对外部链接,内部链接也很重要。

传统方式

以前我们做文章系统或新闻发布系统的时候,做文章内链(标签)的时候,通常是通过以下方式来实现的:

数据库:article(文章表)字段(id, title, body, adddate, userid),keyword(内链表)字段(id, name, link)

在发布文章的时候,循环内链表内的所有,来替换文章的body。

这样确实是实现了想要的功能,但是如果我们的内链表的数据达到很大的数目,比如2W、5W或更多的时候。每发布和修改一片文章的效率是可想而知的。那么网易的新闻、百度的百科等这样打大型网站是如何实现的呢?如果按照以上的做法,那系统在几个月后就直接崩溃了。

分析比较

一篇正常的文章会有多少字(不计HTML代码)?1W?我想1W的文章已经算是很长的了,而且想在如果直接在一个页面显示1W的文章相信没有几个人有耐心能看完的。为了页面美观和用户体验,编辑通常都是将内容过多、篇幅超长内容的文章分段处理(分为几篇文章,或分章节)。如果我们能事先将可能出现内链的字从文章中提取出来,再从数据库里检索,这样效率是不是就可以得到很大的提高?答案是肯定的。我们就拿1W字的文章来说,假设文章的所有文字都需要内链,循环的次数是1W次。比上面的例子假设要强得多吧?

在传统方式中,不管你要不要,把内链表的东西全查一边。而下面这种思路是事先将有可能出现内链的字词全部整理出来,再用这些词分别去检索内链表。这样一比较问题就出来了。

新思路就是:从文章中取出需要内链的字词,然后去查询内链表。

可行操作

我们暂且把传统方式称为被动方式,把新思路的方法称为主动方式。

主动方式的实现方法如下。

利用中文分词技术,我们可以对一篇文章进行分词。然后根据分词后的词表,过滤掉常用的物主代词、副词、感叹词等。把名词、品牌、地名、商标等留下,或者根据自己的词库表来分词。然后把剩余的字词去检索内链表,如果有存在,我们就坐上链接,不存在就PASS。

以上只是思路的一个初步构思,在实际实现过程中需要考虑的因素很多。我觉得重点就在分词这个环节。

来源:读者沈力投稿

来源:月光博客


Public @ 2012-09-14 16:11:25

什么是HTML版本网站地图?网站地图有什么作用?

网站地图分为两种,一种是HTML版本的网站地图,另外一种则是XML网站地图。今天主要给大家讲解有关HTML版本。什么是HTML版本网站地图?HTML版本的网站地图就是用户可以在网站上看到的,列出网站所有主要的链接页面,一般会放在网站的顶部导航或者网站最底部,通常一些用户进入某个网站时,想快速的进入某个栏目,就可以通过网站地图来快速进入。网站地图不能罗列所有页面,可以采取两种方法解决:1、网站地图只

Public @ 2009-11-01 16:09:50

从SEO角度优化网站结构带来哪些好处?

网站的优化分为两大部分,一是网站结构的优化,二是页面上关键词的优化。今天主要讲的是网站结构优化,网站首页的布局对网站优化有着至关重要的作用,网站结构布局结构好才能吸引蜘蛛更好的抓取。从SEO角度优化网站结构带来哪些好处?1、提高用户体验网站结构针对于用户体验进行优化,考虑多维度用户的需求,提高多类型用户的体验度,让搜索引擎更好地收录我们的网站,从而提升网站排名。2、提高收录率优化网站的结构,建议形

Public @ 2019-03-09 16:12:08

怎样给博客帖子加内部链接?

很多读者在问,我的博客帖子里面加的内部链接是怎么弄的?我也发现有一些朋友把我的博客一些文章排名还不错,归功于我博客上的内部链接。我想这是其中的一个原因。今天就解释一下,通常我是怎样在博客帖子里面加站内链接。首先,要说明的是,博客帖子里面的链接完全是人工加上去的就是很老很笨的找到自己博客以前的帖子URL,然后写帖子时加上去。我做网站通常会比较喜欢这种比较笨的办法。每个人的特点不同,我是希望做网站时,

Public @ 2009-11-17 16:11:24

网站内部链接与权重如何分配才是最好

其实网站结构这块的优化需要解决的最重要问题包括收录以及页面权重分配。最经典是树形结构,是比较好的链接及权重分配模式。但是由于不同的网站采用的技术不同,要实现的功能、网站目的、运营思路都有可能不同,因此某些看起来是根据树形结构来做的网站,其实结构很奇怪。因此我们需要具体问题具体分析。 首先是解决重点内页的问题。一般来说,网站首页获得的内外部链接是最多的,权重最高。首页链接到一级分类页面,这

Public @ 2011-10-31 16:11:30

更多您感兴趣的搜索

0.437066s