Manaanブログ検索エンジン

http://www.hpcss.is.ritsumei.ac.jp/Essay/2005/thesis/pdf/ohsaki.pdf
これは前から読んでる論文ですが、立命館大学の人の卒論ですが、


この方のブログ検索エンジンの仕組みは、

RSSをクロールしてきて、mySQLにURLを保存していく
□descriptionが、blogのhtmlに含まれる場所からさらに2000文字ぐらい余計に取得する
(なるほど!広告とかリンク集とかごみ問題が無くなる!)


これでblog全文が保存できるわけか(自分は今はdesciptionしか保存してない)



さらに、クロールした本文からnamazuでインデックス作成(論文では別のn-gramp2pなエンジンも試している)