2007-02-25から1日間の記事一覧
数年前で古いですが、 人工知能学会誌2004/5 Vol19 No3 に「WWW上の情報の知的アクセスのためのテキスト処理」で GoogleNewsの解説とともに、海外の大学で、ニュースの収集分類とさらに記事の要約までやってるシステムが紹介されている GoogleNewsは同じよう…
http://www.hpcss.is.ritsumei.ac.jp/Essay/2005/thesis/pdf/ohsaki.pdf これは前から読んでる論文ですが、立命館大学の人の卒論ですが、 この方のブログ検索エンジンの仕組みは、□RSSをクロールしてきて、mySQLにURLを保存していく □descriptionが、blogのh…
ホットキーワード系はあまり更新されないので、現状6時間ごとにクロールしてます。 ただkizasi語はわりとひんぱんに更新されてるようですが。 はてなのホットワードは、あくまではてなキーワードが対象ですが、 kizasi語は、blogで言及された文章を形態素解…
収集エントリー数が57120まで来ました。 まだ、別に検索の速度も問題ないようです。 kizasiとかgooとかだと三ヶ月、1億とか7千万ぐらいのエントリーを保持しているみたいですが、 1週間分ぐらい保持できてれば、統計的には問題ないと思います。 いまのペース…
http://event.movies.yahoo.co.jp/theater/dororo/西武新宿駅に行く途中、 たまたまオスカーの前を通りかかったら ナイト割引で1300円だったので、どろろを見てきました。 興行成績はよさそうだったので、面白いのかな? と思い、ネットでの評判などは見てま…