2003-04-26

みさきニュースhttp://props.tripod.co.jp/news/

misaki

「今日のなんでやねん」さんで取り上げて頂いた。
http://kitaj.no-ip.com/tdiary/20030426.html#p05

>これ，分類まで自動なのか
　そうなんです。自動で分類やってます。

　わたしが調査したところ、バルクニュースやRSSがらみの自動取得サイトだと、たんに記事を取得して羅列するだけのようです。
　凝ったものでも、被アクセス数でソートする「せかいのまんなか」があるくらいではないでしょうか
http://bulknews.net/
http://webmania.jp/~keitsuda/　

http://homepage1.nifty.com/kazuf/renewal.html
　ここのAWAKING Projectに触発されて開発しています。
　米国だとGoogleNewsという物凄いものがありますが、この種のサービスはまだ国内は皆無だと思います。

　キーワード分類は、「キー」「カテゴリ」が対の辞書を利用しているだけです。さほど高度な処理はしてません。
　要点は、カテゴライズに優先順位を儲けていることで、
　たとえば、

　仮に、以下の記事を仮定すると、
「田村ゆかり、アニメ祭に出演」

　田村ゆかり：声優
　という辞書が合った場合は、すみやかに「声優」にカテゴライズされます。
　もしない場合は、「アニメ：アニメ」で「アニメ」にカテゴライズします。
　より具体的なカテゴライズを優先して行っているわけです。

　開発はHSPなので、コンパイラもタダです。インタプリタなのでデバッグも楽です。C++とかJavaとか使えば見かけはカッコイイですが、
　プログラムは動けばいい。アルゴリズムの実現がキモである。
　と常々思っているので問題ありません（なので職業プログラマには向きません。しくしく）

2003-04-26

改良

misaki

　カテゴリ化に失敗した記事を別ページで一覧しました。
　辞書にキーを若干追加。

　4/26夜の場合は「155/199」％のカテゴリヒット率。
　失敗しているのをみると、
　俺ニュースの微妙な言い回し、
　Brainstormの抽象化されたヘッドライン
　に失敗してます(;´Д`)
　あとwiredのカルチャージャンルも難しいようです。

2003-04-26

久しぶりに人工無能・制作でも再開するか。

　今、考えているアルゴリズムは、

まず文章の分解
キーの学習
1. 新規はそのまま記憶。クラスの初期数値は乱数
2. 既に記憶済みの場合は、文のカテゴリから単語のクラスを修正
単語クラス辞書を利用して入力文からメタ文章抽出
依存関係辞書から出力文を生成

　依存関係辞書の学習はどこかのBBS（たとえば2ch）から前後の依存関係を仮定して大量学習する。

『文のカテゴリから単語のクラスを修正』
　このクラス修正にニューラルネットを使えないかと思案中

2003-04-26

2chブラウザ「chradio」

chradio

　別インターフェイス作成
http://props.tripod.co.jp/2ch/
　自分用によく行きそうな板のみ表示（別途一覧も可）

　独自のCGIを使ってますが、

　例えばSF板のスレ一覧は、

http://cgi.mediamix.ne.jp/~t5523/user-cgi/a/sh.cgi?shell=&url=http://book.2ch.net/sf/subject.txt

　で呼び出せます。

　フレームに対応するために
　スレ一覧は「th」
　内容は「view」
　と呼び出されるようになってます。

　このCGIは外部から自由に呼び出してかまいませんので、
　HTMLのフレームが判る方は、自分用にカスタマイズして使われてかまいません（うーん、そんな人いないかな）