最速ブログウォッチャー
http://d.hatena.ne.jp/download_takeshi/20090907/1252329966
さてさて、こいつは何をしているかと言いますと、「国内の人気ブロガー」と思われるフィードURLを数千〜1万件程度かき集めてきて、 たくさんのプロセス×非同期処理で頑張って随時チェックしまくっています。
1万件程度というのはすごいですね。
プロセスはどのくらい使ってるんだろう?
今、GoogleのPubSubHubBub関係を調べてるんですが、
http://bb.watch.impress.co.jp/docs/news/20090818_309112.html
これは、記事配信元をHUBが監視していて、更新があったら、hubがreaderに記事を送りつけてくるようです。
本来は記事配信元が、読者に、直接届ければいいんですが、
実際は、読者が、定期的に記事配信元を訪れて、更新チェックをしているのが現実。
現実社会では、
- 出版社→定期購読→郵便配送→読者
- 出版社→問屋→本屋←読者
- 出版社→amazon←読者
という方式がありますが、
- ニュースサイト→RSS発行←feedチェック(読者)
という図式ですが、
これだと、リアルタイム性をあげるにはチェックする側が「何回もリロード」するようなもんですが、
- ニュースサイト→記事post→feed受信(読者)
なら、たいへんなのは配信元で、受信側は口をあけて待っていればいい。
え? メールが既にそうじゃん?