微妙に言葉が変わって投稿する記者は困る

ほぼ同じ記事が投稿されている。
完全一致しか除外して無いので防げない。
こういう場合、お手軽には差分をとって、diff(A-B)/length(A+B)みたいな計算をすれば、
ほぼ同じか解って、もっと賢く排除できるはず。

(534res/h) 【衆院選】 「眞鍋かをりポスター、撤去しない」 城内実氏、眞鍋さんポスター
無断使用疑惑で反論…フジは眞鍋さん番組出演見合わせ http://bit.ly/XKvTM
約7時間前 Perl Net::Twitterで
(690res/h) 【衆院選】 「眞鍋かをりポスター、撤去しない」 城内実氏、眞鍋さんポスター
無断使用疑惑で反論…一方、フジは眞鍋さん番組出演見合わせ http://bit.ly/1yH9sS
約8時間前 Perl Net::Twitterで

その点、GoogleNewsは賢い。大きく表現が変わっても同じ記事をグルーピングできている。
Mixi製のBayonで、記事を分解したものをクラスタリングすれば、グルーピングができるかもしれない。
そのグルーピングしたものをどこのジャンルに入れるか?はベイジアンを使えばいい。
(ただ、お決まりのジャンルはイヤだ!)