ベイズ法による「はてブ」のカテゴリ分類をしたニュース

http://labs.ceek.jp/hbnews/
http://labs.ceek.jp/classify/


前からあるサイトみたいなので、個人用のメモ
うーむ、社会、経済、電脳などを、ベイズ推定で分類しているわけっすね。
経済記事を「これは経済だよ」とあらかじめ学習をさせておくわけか。
ようするに、判定用の辞書を機械学習させておくということか。
もっとも、「経済記事」を「これは経済だよ」という分類は手動なんだろうけど……
自己組織化的に、「なんとなく分かれた」ニュース郡に、後付で、名前をつけてみるアプローチも面白いでしょうけど。


しかし、すでにこの手のサービスがあるのなら、どの記事が経済か、社会か、スポーツか、は判断しないでも
その手のニュースサイトのカテゴリ分類の結果から、学習すれば、自動学習できるね(・∀・)
クラスター分類を使っているというGoogleNewsからも、結果を教師にして学習できるし。
コンピュータ将棋でも、教師をBonanzaにして、Bonanzaから将棋を教えてもらうアプローチもありかなと思ったんですが。
しかし、この手の分類は、分類粒度が荒すぎる。もっと現在の話題にピンポイントで対応するような、粒度の細かい分類を自動的にやりたいものです。


たしかに、分類判定をベイズ推定で学習はかっこいいけど、手動で辞書を作っても、結果が同じなら一緒かなとは思う。
微妙な単語の存在を、確率で判断する方向性は、手動では難しいけど。
現状の手動で分けてる段階から、それぞれのカテゴリのニュース見出し(および概要)を利用して、
形態素で分割して、それぞれの形態素が登場してくる回数をカウントして、それぞれの登場確率をもとめれば、
実際に、ある見出しにおいて、登場する形態素 x 登場確率=そのカテゴリである可能性
という判定式が成り立つ。それがベイズ推定なので、要は、形態素解析して、数えて日々記録していけばいいのか。
形態素ではなくて、タグを数えてもいいだろう。その方が無駄がないカモ?



http://news.ceek.jp/
これは見せ方も含めて、すごいいいなあ(^^;
GoogleNewsと同じで、対象が1次ニュースだけなので、ある意味、GoogleNewsと同じで、存在する意味が?
みたいに思うところがアレだけど、実験的には素晴らしい。
やっぱり自分もベイズ推定をやってみよう(・∀・)