Categories


Tags


Google PageRank的计算源代码

最近对google的PageRank(网页等级)比较感兴趣,一直想知道如何不用google toolbar来获取pr值。苦苦搜索之后,找到如下代码:

<?php

/**

This code is released unto the public domain

*/

//header("Content-Type: text/plain; charset=utf-8");

define('GOOGLE_MAGIC', 0xE6359A60);

//unsigned shift right

function zeroFill($a, $b)

{

$z = hexdec(80000000);

if ($z & $a)

{

$a = ($a>>1);

$a &= (~$z);

$a |= 0x40000000;

$a = ($a>>($b-1));

}

else

{

$a = ($a>>$b);

}

return $a;

}

function mix($a,$b,$c) {

$a -= $b; $a -= $c; $a ^= (zeroFill($c,13));

$b -= $c; $b -= $a; $b ^= ($a<<8);

$c -= $a; $c -= $b; $c ^= (zeroFill($b,13));

$a -= $b; $a -= $c; $a ^= (zeroFill($c,12));

$b -= $c; $b -= $a; $b ^= ($a<<16);

$c -= $a; $c -= $b; $c ^= (zeroFill($b,5));

$a -= $b; $a -= $c; $a ^= (zeroFill($c,3));

$b -= $c; $b -= $a; $b ^= ($a<<10);

$c -= $a; $c -= $b; $c ^= (zeroFill($b,15));

return array($a,$b,$c);

}

function GoogleCH($url, $length=null, $init=GOOGLE_MAGIC) {

if(is_null($length)) {

$length = sizeof($url);

}

$a = $b = 0x9E3779B9;

$c = $init;

$k = 0;

$len = $length;

while($len >= 12) {

$a += ($url[$k+0] +($url[$k+1]<<8) +($url[$k+2]<<16) +($url[$k+3]<<24));

$b += ($url[$k+4] +($url[$k+5]<<8) +($url[$k+6]<<16) +($url[$k+7]<<24));

$c += ($url[$k+8] +($url[$k+9]<<8) +($url[$k+10]<<16)+($url[$k+11]<<24));

$mix = mix($a,$b,$c);

$a = $mix[0]; $b = $mix[1]; $c = $mix[2];

$k += 12;

$len -= 12;

}

$c += $length;

switch($len)              /* all the case statements fall through */

{

case 11: $c+=($url[$k+10]<<24);

case 10: $c+=($url[$k+9]<<16);

case 9 : $c+=($url[$k+8]<<8);

/* the first byte of c is reserved for the length */

case 8 : $b+=($url[$k+7]<<24);

case 7 : $b+=($url[$k+6]<<16);

case 6 : $b+=($url[$k+5]<<8);

case 5 : $b+=($url[$k+4]);

case 4 : $a+=($url[$k+3]<<24);

case 3 : $a+=($url[$k+2]<<16);

case 2 : $a+=($url[$k+1]<<8);

case 1 : $a+=($url[$k+0]);

/* case 0: nothing left to add */

}

$mix = mix($a,$b,$c);

/*-------------------------------------------- report the result */

return $mix[2];

}

//converts a string into an array of integers containing the numeric value of the char

function strord($string) {

for($i=0;$i<strlen($string);$i++) {

$result[$i] = ord($string{$i});

}

return $result;

}

// http://www.example.com/ - Checksum: 6540747202

$url = 'info:'.$_GET['url'];

$ch = GoogleCH(strord($url));

$url='info:'.urlencode($_GET['url']);

echo file_get_contents("http://www.google.com/search?client=navclient-auto&ch=6$ch&ie=UTF-8&oe=UTF-8&features=Rank&q=$url");

/* use curl send the user angent

$curl = curl_init("http://www.google.com/search?client=navclient-auto&ch=6$ch&ie=UTF-8&oe=UTF-8&features=Rank&q=$url");

curl_setopt ($curl, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; GoogleToolbar 2.0.110-big; Windows 2000 5.0)");

curl_exec($curl);

*/

?>

</></>

来源:月光博客


Public @ 2022-12-07 15:39:09

浅谈搜索引擎的核心算法

外链是搜索引擎算法中,判断网站权重高低的重要指标,当用户在搜索框中输入关键时,搜索引擎面对大量拥有相同内容的网页,首先需要解决的就是,通过哪些参数觉得网页排名的高低。今天,笔者就简单介绍外链建设中,比较有名的核心算法:PageRank算法、Hilltop算法、Direct Hit 算法。第一种算法、PageRank算法1998年,Sergey Brin和Lawrence Page提出了PageRa

Public @ 2016-10-16 16:21:57

TrustRank算法

TrustRank是一种基于Web搜索的信息检索技术,用于挖掘有质量的网页,并将其置于搜索结果的顶部。它可以准确地将有质量的网页与搜索词相关联,从而过滤掉某些无关的链接,让有质量的网页出现在搜索结果中。 TrustRank算法通过跟踪搜索引擎向用户展示的链接的信誉来确定搜索结果的顺序。同时它会检测用户的反馈,比如点击量,浏览时间,以及用户评价,用于调整页面排列顺序。这样的话,用户就可以更加准

Public @ 2023-02-27 09:48:21

Google PR劫持

Google PR劫持是一种黑客攻击方式,指的是攻击者通过某种手段修改了网站页面的PageRank值,以提高自己的站点排名或降低竞争对手的排名。具体来说,攻击者会通过篡改网站链接或利用重定向等方式,将莫名其妙的外链指向目标网站,从而提高目标网站的PR值。这种攻击对于网站所有者来说是极为危险的,因为它可能导致网站在搜索引擎结果中的排名受到影响,严重的甚至会被搜索引擎惩罚或封禁。为了避免这种情况发生,

Public @ 2023-06-27 00:50:12

Google PR劫持

一直不太想说Google PR劫持这个话题,因为怕造成一些人刻意利用来骗其他的站长。不过前几天在点石有几个帖子都涉及到了这个问题。而且我再想想,如果有人就想欺骗,还是可以找到这个方法的。不如在这里公开讨论一下,让大家都知道,反而可以减少上当的可能性。大家都知道,Google PR是站长们都在追逐的东西,虽然不一定对排名有多大用,但是光那一段工具条上的绿色,越长就越让人兴奋。今天要谈的就是PR劫持,

Public @ 2020-03-03 15:39:05

更多您感兴趣的搜索