ベイズ推定の統計データの動的学習

記事分類をしようと思い、過去1週間の記事をベイズ推定用のデータとして持っていたとしても、
未来の一週間に通用する確率はおのずと下がる。
ましてや一ヵ月後、一年後には判定の割合はかなり下がってしまうと思われる。
人手でときどき再学習をしてやってもいいかもしれないが、せっかく自動学習なのにもったいない。


ということで、例えば「経済」であれば、
GoogleNewsの経済や、新聞社の経済ニュースは、「経済記事である」という仮定のもとに、
動的に学習してやれば、常に最新の記事にも対応できる
統計データを保持することができるはず!


ということで、
http://www.iza.ne.jp/news/economy/NwCateRSS.rdf
http://news.ceek.jp/rss/business.rdf
http://rss.akiyan.com/rss/googlenews.rss?category=business
とりあえずこの三つのRSSを毎日クロールして、その記事を「経済」として学習していきます。
(いざ!とceek.jpNews経済とGoogleNews経済)
GoogleNews日本版はRSSを吐かないというけしからん仕様なので、
RSS独自配信サイトさまのRSSを利用させていただきます m(_ _)m


ちなみに、今日の夜だけクロールした教師用の経済ニュースは

日銀・福井総裁が「投資のススメ」都内で講演 日銀の福井俊彦総裁は25日、都内で講演し、1500兆円に上る日本の家計の金融資産のうち、株式と投資信託の割合が計約15%にとどまっているとした上で、家計資産には「リスクマネーとして活性化され得る潜在的な力が、まだかなり眠っている可能性がある」と指摘し...
NHK改革案、「法案提出前に」 総務事務次官が注文
ロンドン外為9時半 円は対ドルで続伸して始まる
トヨタが最高値一時更新、株式時価総額30兆円突破
住友チタニウムが中期計画を発表、さらに能力増強へ
日産&ルノー、工場新設でインド市場本格参入
一時1万8300円台 東証、利益確定売りも
日興シティ傘下入り 世界的信用力に期待
富士バイオ、伊藤忠と業務提携について協議中
「同情買い」? サッポロビールの売り上げ急伸
需給ギャップが9年9か月ぶりプラス、脱デフレ鮮明に
大手行の普通・定期金利 きょう一斉引き上げ
出光、ガソリン卸値の公表中止へ 「役割を終えた」
LNG供給に期待表明 サハリン1で麻生外相
家計の金融資産、リスクマネーで活用なら成長率に貢献=日銀総裁
三井住友海上の処分を8カ月ぶり解除 金融庁
ガソリン価格、週1改定に
三洋問題で金融庁長官「情報開示は最適解めざすべきだ」
企業価値を上げるM&Aが当然あるべき=経団連会長
東工取の金先物が上昇、85年以来初の2700円台に
NTTへの規制などを毎年点検,総務省ガイドライン案を公開


このテキストからベイズ判定用に、まず出現するワードの数のランキングが、

同社,5
企業,5
投資,5
大手,5
傘下,5
兆円,5
販売,4
分か,4
受け,4
買収,4
経営,4
東証,4
市場,4
日銀,4
金融,4
週明け,3
東京,3
前週,3
乗り,3
デザイン,3
午前,3
証券,3
ていることが,3
日本,3
続伸,3
買い,3
上昇,3
ドル,3
シティ,3
可能性,3
日興,3
一時,3
期待,3
円台,3
リスクマネー,3
家計,3
株式,3
金融資産,3
総裁,3

まだ教師テキストが小さいので、ワードの数も頻度も少ない。
毎日クロールしていけば、おのづと、「経済」を表現するよさげなワードが抽出されると期待します。



ちなみに、政治・社会・国際・ゲーム・声優などのジャンルも自動学習させてます。
あまり頻繁にクロールはしませんので、取得先のサイトの中の方、お許しくださいm(_ _)m


ちなみに政治だとこんな感じ

56
知事,8
問題,6
民主,6
地方,6
選挙,5
統一,5
大阪府,4
自民,4
自民党,4
不動産,4
大筋,4
確認,4
日本,4
事務所,3
年度,3
企業,3
改革,3
受け,3
知事選,3
行政,3
平成,3
予算,3
安倍,3
首相,3
総務,3
中国,3