HITS:authorityとhubによるwebの評価
http://d.hatena.ne.jp/naoya/20090301
はてブより、はてなのnaoyaさんは最近はデータマイニング系の記事が多いですね
はてなも自前でAI処理に乗り出すのかな?
例えば「Perl の情報が欲しい」という検索要求に対しては CPAN や 開発者である Larry Wall のホームページなどが重要度の高いページかと思います。 これらのページは「Perl に関して信頼できる情報源」ということで、authority (権威的) スコアが高いページです。
なるほど。情報ソースと専門メディアって感じ。
hub←Matrix*auth auth←Matrix(転地)*hub
リンク関係が互いに逆なので、関係を表わす行列は逆の関係では転置行列になるらしい
(それを利用して収束させるのかな?)
連立方程式を代入すると
hub←Matrix*Matrix(転地)*hub auth←Matrix(転地)*Matrix*auth
自分自身で表現できるらしい
計算機で時系列に差分計算するために
hub=λMatrix*Matrix(転地)*hub auth=λMatrix(転地)*Matrix*auth
とできる。なるほどねー
これで求まったMatrixはそもそも何を表現しているのか?
>「次元のたたみこみ」を行っている、ともみなせそう。
スコアを求めるということは、スコアがhubやauthを区別して表現するわけで、
(中には中間ぐらいのサイトもあるだろう)
それは次元のたたみこみ(主成分分析)みたいなものという感じかな?
考えてみたら、膨大なwebページを格付けするPageRankも
もの凄い「次元畳込み」をしているってことか。
そんな風には考えたことがなかった。
ソースとメディアって関係は将棋の評価関数に使えないかな?
メディアはソースを多項式で代用したものかも?