微妙に言葉が変わって投稿する記者は困る
ほぼ同じ記事が投稿されている。
完全一致しか除外して無いので防げない。
こういう場合、お手軽には差分をとって、diff(A-B)/length(A+B)みたいな計算をすれば、
ほぼ同じか解って、もっと賢く排除できるはず。
(534res/h) 【衆院選】 「眞鍋かをりポスター、撤去しない」 城内実氏、眞鍋さんポスター 無断使用疑惑で反論…フジは眞鍋さん番組出演見合わせ http://bit.ly/XKvTM 約7時間前 Perl Net::Twitterで (690res/h) 【衆院選】 「眞鍋かをりポスター、撤去しない」 城内実氏、眞鍋さんポスター 無断使用疑惑で反論…一方、フジは眞鍋さん番組出演見合わせ http://bit.ly/1yH9sS 約8時間前 Perl Net::Twitterで
その点、GoogleNewsは賢い。大きく表現が変わっても同じ記事をグルーピングできている。
Mixi製のBayonで、記事を分解したものをクラスタリングすれば、グルーピングができるかもしれない。
そのグルーピングしたものをどこのジャンルに入れるか?はベイジアンを使えばいい。
(ただ、お決まりのジャンルはイヤだ!)