HITS:authorityとhubによるwebの評価

http://d.hatena.ne.jp/naoya/20090301

はてブより、はてなのnaoyaさんは最近はデータマイニング系の記事が多いですね
はてなも自前でAI処理に乗り出すのかな?

例えば「Perl の情報が欲しい」という検索要求に対しては CPAN や 開発者である
 Larry Wall のホームページなどが重要度の高いページかと思います。
これらのページは「Perl に関して信頼できる情報源」ということで、authority (権威的) スコアが高いページです。

なるほど。情報ソースと専門メディアって感じ。

hub←Matrix*auth
auth←Matrix(転地)*hub

リンク関係が互いに逆なので、関係を表わす行列は逆の関係では転置行列になるらしい
(それを利用して収束させるのかな?)


連立方程式を代入すると

hub←Matrix*Matrix(転地)*hub
auth←Matrix(転地)*Matrix*auth

自分自身で表現できるらしい


計算機で時系列に差分計算するために

hub=λMatrix*Matrix(転地)*hub
auth=λMatrix(転地)*Matrix*auth

とできる。なるほどねー
これで求まったMatrixはそもそも何を表現しているのか?


>「次元のたたみこみ」を行っている、ともみなせそう。
 スコアを求めるということは、スコアがhubやauthを区別して表現するわけで、
 (中には中間ぐらいのサイトもあるだろう)
 それは次元のたたみこみ(主成分分析)みたいなものという感じかな?
 考えてみたら、膨大なwebページを格付けするPageRank
 もの凄い「次元畳込み」をしているってことか。
 そんな風には考えたことがなかった。


ソースとメディアって関係は将棋の評価関数に使えないかな?
メディアはソースを多項式で代用したものかも?