HOME > ページランクについて
Googleのページランクって?
www検索エンジンにおいて最も有名なページスコアリングアルゴリズムの一つ。今はGoogleによってこのページランクが利用されているかどうは不明です。そしてその値も公表されていません。 このページランクはWebページが持つリンク構造に基づいてページのスコアリングが行われており、その基本的な考え方は、重要なページは重要なページにリンクされているという概念から成り立っています。
PageRankでは、多くのページからリンクされているページやランクの高いページからリンクされているページは非常に重要なページということになり、スコアも高くなるということです。
図1を用いて計算方法を説明します。
まず、全てのWebページはそれぞれPageRankをもっています。そしてこの値はそのページがリンクしている先に均等に分配されます。この場合100は50づつに9は3づつに分配される。すると、Cは50とDとFは3、Eは53のWebページと計算できます。ページランクは高いほど重要であるということを意味し、サイトの重要度を測る指標となっています。Bingにおいても重要度をなんらかのアルゴリズムで計算していると考えられます。
ページランクをどのように計算するのか?
リンク関係を行列の形で表わしてみます。
あるページ i から別のページ j へリンクが張られている場合にはその成分を 1 とし、
そうでない場合を 0 とする。すなわち、行列 A の成分 aij は
aij = 1 if (ページ i からページ j へのリンクが「ある」場合) 0 if (ページ i からページ j へのリンクが「ない」場合) |
で表わされるとします。文書数を N とするとこの行列は N×N のN次正方行列になります。 これは、グラフ理論で「隣接行列」と呼ばれるものに相当します。
PageRank の計算は、この推移確率行列の最大固有値に属する固有ベクトル(優固有ベクトル)を求めることにほかなりません。なぜなら、線形変換系の t →∞ での漸近挙動は、変換行列の絶対値最大の固有値とそれに属する固有ベクトルによって本質的に記述されることがわかっているからです。言い換えれば、推移確率行列で表わされる確率過程は、この行列の掛け算を繰り返したものを調べることで、行き着く先の状態の確率を計算できると言うことです。
R=cAR (c:定数 R:Aの固有ベクトル) |
を繰り返し計算することになります。
どうしたら現状のPageRankで上位に表示させることができるのか?
これが一番大事なところです。
※計算上ページランクを上げるような操作をする場合、アンカーテキストのペナルティーに注意が必要です。
また、この計算からわかることは、使い勝手に注目し内部リンクを増やし、コンテンツを作成することは有効であるというです。