2009-07-20から1日間の記事一覧

情報集積のタイムスケールの違い

ニュース系は1時間に何レスって指標でいいと思うけど、 一般の板は1日に何レスって感じで、タイムスケールが違うね。 リアルタイム検索サービスをやるなら速報・実況の板だけ巡回するだけ充分と思う。2NNみたいに。 (速度というレス数の微分というロジック…

大阪ニュース

2ch: 板=99 スレ=45497 レス=10189542 検索インデックス=1453 search '大阪' 1:【酷似】橋下知事「大阪の人は韓国人とよく似ている」 (痛いニュース+) +9レス http://hideyoshi.2ch.net/test/read.cgi/dqnplus/1248022315 2:【政治】民主・岡田幹事長、重点…

勢いを調査

勢い=レス数の変化でやってるけど、実際のところ、時間間隔が重要 短いと速報性が上がるけど、正確さが失われる。なかなか調整が難しい。 しかし、news系がやはり強い。newsをURLに含まないもののランキングも見てみよう トップニュース 1:【ネット】 「女…

巡回完了

結局、1543板、391798スレでした。 こんなにあったのかあ スレの勢いも計測したいんだけど、10並列でも1プロセス154板も巡回しないといけないとたいへんだなあ(^^; 板毎に更新頻度が違うはずなんで、更新間隔を調べて動的な間隔制御はやろうと思うんだけど、…

utf-8化&並行処理

UTF8として蓄えるようにしました。 検索の不具合も無くなった模様。(板番号 % 最大プロセス数)=プロセス数 というロジックで2並行処理中(CPU使用率は6%ぐらいなので全然余裕)検索ワード「東京」で全巡回中 339: dqnplus 早大OBデイトレーダー集団、株価…