Bulkfeeds: Similarity Search リリース

http://blog.bulknews.net/mt/archives/000763.html

artifactの記事から
http://artifact-jp.com/mt/archives/200402/similaritysearch.html

形態素解析して、似たblog記事を検索できる仕組みのようです。
ふむふむ。後でよく読んで見ます。
自分は基礎研究的なとこは興味あるんですが、ソフトウェア工学的になってしまうと、よく判りません(^^;)
つうわけで、rssなんかなくてもいっしょじゃんとか思ってしまう人です。
べつにみさきニュースはぶっこぬいてるし。

で、このへんの手法ですが、金曜日に情報処理学会誌をぱらぱら読んでたんですが、
２００２年の会誌にmisakidex作ってて考えたことがずばり載ってました。

　misakidexは、関連記事検索を作ってたんですが、手法として、
　関連語などを追加することで、検索数を増やすことが出来ます。
　しかし、それは検索結果の精度を落とします。
　よって、記事の特徴を計算して、より関連度の高い記事を選ぶ手法が大事になるようです。
　特徴ベクトルという言い方で書いてありました。
　それは記事同士の引用やリンク関係を利用する方法もあります（PageRankのように）
　その記事自体は、英語と日本語の横断的検索手法の記事だったんで深くは書いてなかったですが、

　自分はblogツールとインタフェースを作ったりするようなとこは興味が無いので、関連記事検索の基礎的な手法を今後も勉強しようと思います。

http://cgi.mediamix.ne.jp/~t5523/user-cgi/yukiwiki/yukiwiki.cgi?mycmd=read&mypage=AI#4
　misakidexでやっていた関連記事の検索は↑のような手法をやってます。
bulknewsさんの検索は、形態素解析して、その切り出された形態素を使って検索するようですが、
　それでは「日本テレビ」の記事に関連する「日テレ」のニュースは検索できないことになると思います。
　シソーラスで、関連語を補ってやることは人間の常識を使った行動とも合致すると思います。
　形態素解析は一件万能に見えますが、辞書は有限なので、なんでも切れるわけではなく、「ただ数が多いだけ」と自分は思ったりします。
　とくに固有名詞には弱そうです。
　上記の方法と加えて、misakidexでは単語ごとに強度を与えて、関連記事検索で上に来るように調整する手法を使っていました。
　このへんの関連記事を検索する手法だけでも、かなり面白いテーマだと思います。

　せっかくなんで、みさきニュースにもmisakidexで作った自然言語検索コードを組み込んでみます。

>特徴語は、Bulkfeeds の直近 100,000 エントリから idf を作成（1日1回のバッチ）して、エントリの単語の tf の平方根（正規化）とかけあわせ (tf*idf)、上位4語を抜き出して適当にペアをつくって検索しています。
>分かち書きに kakasi を使用しているため、おかしなところできれることがありますが、実験した限りでは MeCab などよりよい精度を示したため kakasi にしました。

　しかし、ちゃんと自鯖たててこうゆうふうにツール利用してやったほうが強そうだよな。
　プロバイダCGIじゃ限界だ(^^;)

　考えてみるに、自分の日記の関連記事を気軽に紹介できるインターフェイスはやっぱ便利だな。っていうか、ニーズに的確っていうか。
　ちょっとそういう仕組みも考えてみるべきかな。
　キーワードの抽出も「賢くできる」なら、
　このはてなダイアリーみたいに、会員ががりがりに手動で登録している作業って「虚しい」ことになりかねないかも（よくケンカも起きるし^^;