Manaanブログ検索エンジン

この方のブログ検索エンジンの仕組みは、

□RSSをクロールしてきて、mySQLにURLを保存していく
□descriptionが、blogのhtmlに含まれる場所からさらに2000文字ぐらい余計に取得する
（なるほど！広告とかリンク集とかごみ問題が無くなる！）

これでblog全文が保存できるわけか（自分は今はdesciptionしか保存してない）

さらに、クロールした本文からnamazuでインデックス作成（論文では別のn-gramのp2pなエンジンも試している）