品詞情報があれば「固有名詞抽出」がかなりできそう


名詞が続く場合に、
名詞+名詞+……=名詞
って定義して、本来MeCab的に、


涼 名詞
宮 名詞
ハルヒ 名詞


となるものを「涼宮ハルヒ」=名詞として抽出できるようになりましたが、


さらに「名詞」+「の」+「名詞」と間に「の」が挟まってもOKにしてみたら、


見事に、
http://misaki.mine.nu/lab/s.cgi?q=%E3%83%8F%E3%83%AB%E3%83%92

憂鬱(11) メール(8) HEY(5) 声優(5) アワード(4) www(4) 平野綾(4) 受賞(4) 音量(4) 平野(4) ハレ(4) 2007(4) 涼宮ハルヒの憂鬱(3) 声優アワード(3) パソコン(3) カラオケ(3) クッキー(3) ところ(3) コラボ(3) 女優(3) melody(3) 普通(3) 新人(3) 涼宮ハルヒの憂鬱メドレー(2) ハレ晴れユカイ(2)


と、「涼宮ハルヒの憂鬱」が抽出できた!
涼宮ハルヒの憂鬱メドレーみたいな商品名を抽出できてる!
固有名詞抽出は難解と思ってましたが、これでけっこうやれそうです。


はてなキーワードは人力のキーワードなんで固有名詞に強いですが、これなら形態素解析でも
未知の固有名詞に対応できそうです。
他にも、地名とか人名ってカテゴリで抽出してもいいかも。
これは昔、Gooがブログ横断検索でやっていたのを見た覚えがあります。


文庫(22) 浩之(14) 断章(11) ハヤカワ(9) 星界の断章(7) 発売(7) 最後(6) ハヤカワ文庫(5) 森岡浩之(5) シリーズ(5) セレクション(4) 星界の戦旗(4) アーヴ(4) キノコ(4) もの(4) 適応(4) 宇宙(4) 作品(4) 襲来(4) 予定(4) 戦旗(4) BEST(4) プリンセス(3) 早川書房(3) リリア(3) 紋章(3) 購入(3) 先生(3) 王子(3) 3月(3)

星界シリーズなんかもばっちりですね!
http://misaki.mine.nu/lab/s.cgi?q=%E6%98%9F%E7%95%8C+%E6%A3%AE%E5%B2%A1

「名詞の名詞」で、
初期のグインサーガのタイトルなんかも大丈夫かも(w


ちゃんとパーサーを書いてやればかなりいろんなことができそう。MeCabいいっすねえ。