みさきニュースの誤認識(w

41 click それでも地球は動いている ガリレオ・ガリレイ(1/24 21:13)カトゆー
http://www.be.asahi.com/20040124/W21/0001.html

 41クリックで、トップのクリック数記事になってるんですが、
 どうしてかというと、「ガリレオ」はシャープが出しているAVサーバーの名前なんで、「DVDレコカテゴリ」に入れてます。
 RD研究のニュースを見ている人が「あれ?」と思ってクリックしてるんでしょうが、
 実は「なにも関係ない」「ただのガリレオガリレイのコラム」なのです(汗


 しかし、このへんをきちんと認識させようとすると、
「シャープ、ガリレオの修正ファームを配布」
みたいな記事の場合は、「ガリレオ」以外に「ファーム」とか「シャープ」とかの要素も認識して、それぞれキーワードがどれだけあるかをカウントしてやる必要があります。


 今回の「地球」とか「ガリレイ」がある場合は、DVDレコ的には、マイナス評価してあげる必要があります
(このへんのキーワード毎の評価値=レートを、協調フィルタリングで学習し、その結果をベイズ推定で利用して、機械ニュースを分類してやると、
 かなり賢い機械ニュースになると目論んでおります(にやり