みさきニュースhttp://props.tripod.co.jp/news/
「今日のなんでやねん」さんで取り上げて頂いた。
http://kitaj.no-ip.com/tdiary/20030426.html#p05
>これ,分類まで自動なのか
そうなんです。自動で分類やってます。
わたしが調査したところ、バルクニュースやRSSがらみの自動取得サイトだと、たんに記事を取得して羅列するだけのようです。
凝ったものでも、被アクセス数でソートする「せかいのまんなか」があるくらいではないでしょうか
http://bulknews.net/
http://webmania.jp/~keitsuda/
http://homepage1.nifty.com/kazuf/renewal.html
ここのAWAKING Projectに触発されて開発しています。
米国だとGoogleNewsという物凄いものがありますが、この種のサービスはまだ国内は皆無だと思います。
キーワード分類は、「キー」「カテゴリ」が対の辞書を利用しているだけです。さほど高度な処理はしてません。
要点は、カテゴライズに優先順位を儲けていることで、
たとえば、
仮に、以下の記事を仮定すると、
「田村ゆかり、アニメ祭に出演」
田村ゆかり:声優
という辞書が合った場合は、すみやかに「声優」にカテゴライズされます。
もしない場合は、「アニメ:アニメ」で「アニメ」にカテゴライズします。
より具体的なカテゴライズを優先して行っているわけです。
開発はHSPなので、コンパイラもタダです。インタプリタなのでデバッグも楽です。C++とかJavaとか使えば見かけはカッコイイですが、
プログラムは動けばいい。アルゴリズムの実現がキモである。
と常々思っているので問題ありません(なので職業プログラマには向きません。しくしく)
改良
カテゴリ化に失敗した記事を別ページで一覧しました。
辞書にキーを若干追加。
4/26夜の場合は「155/199」%のカテゴリヒット率。
失敗しているのをみると、
俺ニュースの微妙な言い回し、
Brainstormの抽象化されたヘッドライン
に失敗してます(;´Д`)
あとwiredのカルチャージャンルも難しいようです。
2chブラウザ「chradio」
別インターフェイス作成
http://props.tripod.co.jp/2ch/
自分用によく行きそうな板のみ表示(別途一覧も可)
独自のCGIを使ってますが、
例えばSF板のスレ一覧は、
http://cgi.mediamix.ne.jp/~t5523/user-cgi/a/sh.cgi?shell=&url=http://book.2ch.net/sf/subject.txt
で呼び出せます。
フレームに対応するために
スレ一覧は「th」
内容は「view」
と呼び出されるようになってます。
このCGIは外部から自由に呼び出してかまいませんので、
HTMLのフレームが判る方は、自分用にカスタマイズして使われてかまいません(うーん、そんな人いないかな)