みさきニュースhttp://props.tripod.co.jp/news/

「今日のなんでやねん」さんで取り上げて頂いた。
http://kitaj.no-ip.com/tdiary/20030426.html#p05

>これ,分類まで自動なのか
 そうなんです。自動で分類やってます。


 わたしが調査したところ、バルクニュースやRSSがらみの自動取得サイトだと、たんに記事を取得して羅列するだけのようです。
 凝ったものでも、被アクセス数でソートする「せかいのまんなか」があるくらいではないでしょうか
http://bulknews.net/
http://webmania.jp/~keitsuda/ 


http://homepage1.nifty.com/kazuf/renewal.html
 ここのAWAKING Projectに触発されて開発しています。
 米国だとGoogleNewsという物凄いものがありますが、この種のサービスはまだ国内は皆無だと思います。

 キーワード分類は、「キー」「カテゴリ」が対の辞書を利用しているだけです。さほど高度な処理はしてません。
 要点は、カテゴライズに優先順位を儲けていることで、
 たとえば、


 仮に、以下の記事を仮定すると、
田村ゆかり、アニメ祭に出演」

 田村ゆかり:声優
 という辞書が合った場合は、すみやかに「声優」にカテゴライズされます。
 もしない場合は、「アニメ:アニメ」で「アニメ」にカテゴライズします。
 より具体的なカテゴライズを優先して行っているわけです。


 開発はHSPなので、コンパイラもタダです。インタプリタなのでデバッグも楽です。C++とかJavaとか使えば見かけはカッコイイですが、
 プログラムは動けばいい。アルゴリズムの実現がキモである。
 と常々思っているので問題ありません(なので職業プログラマには向きません。しくしく)

改良

 カテゴリ化に失敗した記事を別ページで一覧しました。
 辞書にキーを若干追加。


 4/26夜の場合は「155/199」%のカテゴリヒット率。
 失敗しているのをみると、
 俺ニュースの微妙な言い回し、
 Brainstormの抽象化されたヘッドライン
 に失敗してます(;´Д`)
 あとwiredのカルチャージャンルも難しいようです。

久しぶりに人工無能・制作でも再開するか。


 今、考えているアルゴリズムは、

  1. まず文章の分解
  2. キーの学習
    1. 新規はそのまま記憶。クラスの初期数値は乱数
    2. 既に記憶済みの場合は、文のカテゴリから単語のクラスを修正
  3. 単語クラス辞書を利用して入力文からメタ文章抽出
  4. 依存関係辞書から出力文を生成

 依存関係辞書の学習はどこかのBBS(たとえば2ch)から前後の依存関係を仮定して大量学習する。


『文のカテゴリから単語のクラスを修正』
 このクラス修正にニューラルネットを使えないかと思案中

2chブラウザ「chradio」

 別インターフェイス作成
http://props.tripod.co.jp/2ch/
 自分用によく行きそうな板のみ表示(別途一覧も可)


 独自のCGIを使ってますが、


 例えばSF板のスレ一覧は、

http://cgi.mediamix.ne.jp/~t5523/user-cgi/a/sh.cgi?shell=&url=http://book.2ch.net/sf/subject.txt

 で呼び出せます。

 フレームに対応するために
 スレ一覧は「th」
 内容は「view」
 と呼び出されるようになってます。


 このCGIは外部から自由に呼び出してかまいませんので、
 HTMLのフレームが判る方は、自分用にカスタマイズして使われてかまいません(うーん、そんな人いないかな)