最速ブログウォッチャー

http://d.hatena.ne.jp/download_takeshi/20090907/1252329966

さてさて、こいつは何をしているかと言いますと、「国内の人気ブロガー」と思われるフィードURLを数千〜1万件程度かき集めてきて、
たくさんのプロセス×非同期処理で頑張って随時チェックしまくっています。

1万件程度というのはすごいですね。
プロセスはどのくらい使ってるんだろう?


今、GooglePubSubHubBub関係を調べてるんですが、

http://bb.watch.impress.co.jp/docs/news/20090818_309112.html

これは、記事配信元をHUBが監視していて、更新があったら、hubがreaderに記事を送りつけてくるようです。
本来は記事配信元が、読者に、直接届ければいいんですが、
実際は、読者が、定期的に記事配信元を訪れて、更新チェックをしているのが現実。


現実社会では、

  • 出版社→定期購読→郵便配送→読者
  • 出版社→問屋→本屋←読者
  • 出版社→amazon←読者

という方式がありますが、

  • ニュースサイト→RSS発行←feedチェック(読者)

という図式ですが、


これだと、リアルタイム性をあげるにはチェックする側が「何回もリロード」するようなもんですが、

  • ニュースサイト→記事post→feed受信(読者)

なら、たいへんなのは配信元で、受信側は口をあけて待っていればいい。


え? メールが既にそうじゃん?