複合語や特徴語の扱い

形態素解析して全キーワードでやるという方向もあるんですけど、
web2.0的には手動投入もいいかな?って感じ(みさきニュースの伝統的には手動でやってきたし)
ただ、形態素解析だと言葉が分かれすぎるので、以前、ブログ検索でトレンド分析をやってみたときに
「名詞が続く場合はまとめる」が固有名詞とか複合名詞に有効だったんですが、
そういうモジュールもありました


専門用語(キーワード)自動抽出用Perlモジュール
http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html
これも名詞をまとめたりすることで複合語を表現しつつ、
出現回数で重要度を判断して、言葉自体の重要性まで評価してくれるらし
Yahoo!がキーワードAPIを公開してますが、同じような手法でやってるんだろうと思います。
kizasi.jpもより長い複合語にまとめてる感じがするので、そのへんの工夫をしてるのでしょう。
最長一致法というのも昔からありますが、
こういうキーワードを取り出せるなら自動投入もいいかも


あと、はてブベイジアンでジャンルを分類しているので、
news.ceek.jpが存在感が薄くなってる感じがしますが、
左に出てるキーワードがちょっとつまんないんですよね


http://news.ceek.jp/
これも複合語とかでなるべく長くまとめていけば良くなると思う
要するに形態素解析単体では、「涼宮ハルヒ」を認識できないという話(辞書に持たない限り)


http://kizasi.jp/

一方、kizasiは「パラダイス牧場」
とか複合語にまとめるロジックが入ってる感じ