FrontPage | changes | index | create | search | preferences |

PageRank

Last-Modified: Tue May 02 21:35 2006; Revision: 1.29; by KM
edit | copy | diff | rlog | raw
  1. 概要
  2. GoogleからPageRankを取得
    1. gplank.pl
  3. 関連情報

PageRankの概要とch値の求め方についてのメモなど。

概要

検索した際、キーワードにヒットしたページに対し、どの様に優先順位をつけて表示するかが問題となる。Googleでは、

ページAからページBへのリンクをページAによるページBへの支持投票とみなし、Googleはこの投票数によりそのページの重要性を判断

し、そのページにPageRankという数値を与え、内部的に検索結果の順位を決める際の指標の一つにしているという*1

*1Google の人気の秘密より引用。しかし、あくまでも同程度の内容のページでの話。実際には、如何にページランクが高くても、検索キーワードのヒット率の高いページの方がはるかに優先される。

GoogleからPageRankを取得

通常、Google Toolbarインストールすれば、Webブラウザ上から、閲覧しているページのPageRankを確認することができます。

しかし、それ以外の方法で、PageRankを取得したい場合、Googleに問い合わせる際に、そのページのURLとともに、ch値と呼ばれるそのURLのチェックサムを把握しておく必要があります。ch値については、

のブログ内で、その求め方が公開されています(PHP版)。

また、各言語で実装されたPageRank取得スクリプトには、以下のようなものがあります。

gplank.pl

試みにPerlで書いて*2みたPageRank取得スクリプト*3。引数もしくは標準入力から、http://またはhttps://で始まるものがあれば、そのURLに前に0〜10までのPageRankを付けて表示します。Googleによってランク付けされてないものに関しては、NO_INDEXを付加。

 【使用例】
 
 % ./gplank.pl http://www.google.com/
 10: http://www.google.com/
 
 % cat url.list | ./gprank.pl
 10: http://www.google.com/
 10: http://www.yahoo.com/
 ...省略

 % curl -s http://www.somedomain.com/sitemap.xml | \
   perl -nle 'm"<loc>(.+?)</loc>" && print $1' | gprank.pl | sort
 ...省略

*2既に「WWW::Google::PageRank」が存在していたので、無意味だったかも知れません。

*3URLの文字コードは、UTF-8である必要があります(%[0-9A-F][0-9A-F]形式でURLエンコードされていも可)。

関連情報