谷歌“HITS算法”

HITS,网页分析,算法,搜索引擎

 

HITS 算法是由康奈尔大学( Cornell University ) 的JonKleinberg 博士于1998 年首先提出的,HITS 的英文全称为Hyperlink - Induced Topic Search,为IBM公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

 

HITS算法具体解释:

一个网页重要性的分析的算法,根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。其最直观的意义是如果一个网页的重要性很高,则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指,则表明指向它的网页重要性也会高。指向别的网页定义为Hub值,被指向定义为Authority值。

 

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题的网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。
在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。

 

理解HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。

HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。

其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。

谷歌“HITS算法”

首先,它完全将网页的内容或文本排除在外,仅考虑网页之间的链接结构来分析页面的权威性,这与现实网络中的权威页面相比,其不科学性显而易见。然而HITS算法也有其明显的不足。

因为权威页面必须针对某一主题或关键词而言。某一页面对一确定主题的具有较大权威性的页面并不意味在其他与其无关的主题方面同样具有权威性。其次一个页面对另一页面的引用有多种情况,其中包含了一页面对另一页面的认可,但除此之外也有其他目的链接,如为了导航或为了付费广告。就HITS算法的思想与实现过程做了细致的研究与概括。而HITS算法在实现过程中均没有考虑以上情况.导致了结果与目标的差距。

对HITS算法的第二个不足,即非正常目的的引用.在HITS算法看来,也误认为是正常引用,导致实际结果与目标的出入。针对前面第一种不足,就有相关的学者提出了一种利用超链文字及其周围文字与关键字相匹配而计算超链权值的方法,并引入系数对周围文字和超链文字进行权值的相对控制,很好地将页面文本信息引入到HITS算法,提高了算法的可靠性,并在现实中取得了很好的效果。

 

后来,经过不断的改进。HITS算法又引入了时间参数,即利用对一链接引用的时间长短来评价是否为正常引用。因为非正常链接其引用时间肯定不会很长(如交换链接、广告链接),相反,如果一页面对另一页面的链接时间较长,则必然反映此页面就是用户的寻找页面。即目标页面或至少是正常引用。

如设定访问时间少于1分钟者为非正常引用。如果设定时间阀值,则可以将非正常引用的链接在HITS算法的实现过程中筛选出来。另外可构造时间访问函数,控制权威页面的相对大小。如随访问时间的增大而其权威性也逐渐非线性增大.这样可为HITS算法的权威页面提供更合理、更科学的解释。

    A+
发布日期:2017年01月02日 17:18:51  所属分类:SEO
最后更新时间:2017-01-02 17:18:51
标签:
付杰
  • ¥ 1.0元
  • 市场价:9.9元
  • ¥ 69.0元
  • 市场价:99.0元
  • ¥ 119.0元
  • 市场价:199.0元
  • ¥ 15元
  • 市场价:15元

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:1   其中:访客  0   博主  0

  1. 头像 依然范儿特西 1

    :idea: :arrow: 上方山