Manaanブログ検索エンジン
http://www.hpcss.is.ritsumei.ac.jp/Essay/2005/thesis/pdf/ohsaki.pdf
これは前から読んでる論文ですが、立命館大学の人の卒論ですが、
この方のブログ検索エンジンの仕組みは、
□RSSをクロールしてきて、mySQLにURLを保存していく
□descriptionが、blogのhtmlに含まれる場所からさらに2000文字ぐらい余計に取得する
(なるほど!広告とかリンク集とかごみ問題が無くなる!)
これでblog全文が保存できるわけか(自分は今はdesciptionしか保存してない)