自然言語処理をまじで取り組みます

自然言語処理の教科書自体はいくつも持ってるんですが、
実戦は全然違いますね!


今日はけっこう自然言語処理系を巡回して読んだんですが、
目から鱗が落ちまくりデス。
自分は「なにも解ってませんでした」
はてブにブックマークを色々しました
http://b.hatena.ne.jp/mkomiya/


重要語を調べるために、
TF/IDFを調べる時、TFは文字通り形態素で切って数えればいいんですが、(TermFreq)
IDFは、「YahooAPIで検索して求める」その発想はなかったです。スケールがでかい
MeCabの全単語を予め調べておいて持っていれば、検索数の多い言葉は重要度が下がるので
ユニークな言葉がピックアップされる=キーワードってことらしいです。
ただ、一般的にはレアだけど、WEB世界では露出が多い言葉は不利かも?


COM将棋でも、n-gram手筋マクロなんかで、仮に出現数が多くても、それだけで決め手はだめで、
ある状態からその手が選ばれる頻度、エントロピー?を考慮するじゃないですか。
実現確率でも同じようなことを考えると思うんですよ。TF/IDFでのIDFもそういう感じですね。



あと、クラスター分類もmixiの人が公開しているBayonを試しました。
50万語を5分で処理するそうです。


chradioではフィルターをユーザーが作るので、クラスター分類すれば、カテゴリーが別けられたり、
近いユーザーを捜したり、色々できそうです。
この手の基礎エンジンは、性能の良い物を利用させて貰って、サービス開発に専念した方が良さそうです(^^;


クラスラー分類は、
これは全体を二つに割って、距離でどっちに近いかで移動させて、それを繰り返すらしいです。


今後試したいモノとして、TF/IDF、ベイジアンクラスター分類、協調フィルタリングマルコフ連鎖