misakidex

http://cgi.mediamix.ne.jp/~t5523/user-cgi/c/misakidex.cgi

 一応、公開しておきます。(まだアルファー版)
 まだ累計ランキングが記事をこぼすバグがあるっぽいのと、
 運営のやり方が煮詰まってないけど、


 現状で、80サイトの主なニュースサイトを巡回して、ニュース記事のリンク数のランキングをやってます。
 「せかいのまんなか」とか「webで話題のもの」と同じコンセプトのサイトです。
 上記二つのいい点を併せ持ってます。
 前者は検索ができません。後者は、掲載記事数が少ないです。
 面白いのは「ランダム記事選択」
 80サイトを取得すると、だいたい平均で3000件ぐらい記事のURLが集まります。
 せかいのまんなかは最低2リンクからしか公開して無いですが、1リンクも入れると膨大なニュースがあります。
 なかには「古いニュース」が多いですが、「最新ニュース」や「へんなニュース」もまぎれてます。
 このへんが次の日に、他のサイトが扱って段々とネットで波及していくこともあります。
 なかなか最新記事を分離するのは難しいのですが
 (差分はとると楽そうですが、データーが一日で700KBとかになり、全体で3MBしか無いので、無理です。速度も落ちます)


 現在の問題は、
 プロバイダのCGIって関係で、一括巡回できないので(時間制限で途中でCGIが止まる) 
 なんで、「ユーザーが自分で更新する」サイトにしようと思ってます。
 頻繁に更新すると、取得先に迷惑なんで、
 10分タイマーを設定して、「ユーザー」が「更新」ボタンをクリックすると、順繰りに80サイトを巡回する。
 理論上は、13時間で80のニュースサイトを巡回する計算になります。


 せかいのまんなかなんかと違って、一日一回更新じゃなくて、
 随時更新型。
 時刻変更で、いったん現在のランキングを消去して、累計ランキングはそのまま加算する。
 って感じで、仕様を考えています。



簡単に使い方について(後日マニュアル書くよてい)

1. はじめのページTopNewsは「あらゆるURLの被リンク数ランキングです」
 (個人サイトの面白記事も拾えますが、リンク集のURLも混入します)
 リンク二件以上なので、だいたい400件ぐらい。


2. 二番目のTopStoriesは、商用サイトニュース限定です
 新聞、出版など営利サイトの記事限定です。


3.recent最近です(手法がまずいので動作不良っぽい)


4.LongRanking 累計ランクです(これ手法がまずいので動作不良っぽい)


5.RandomNews 1件のリンクも含めてランダムで並べます。
  すべてなので、だいたい3000件ぐらいあると思う。


6.検索 searchNews
 これ便利です。
 コツをいくつか。


6.1.初級
「世界」で検索すると「世界初」とか「世界で」とか規模のい多いニュース探せます
「まとめ」で検索すると「まとめリンク網羅記事」に当たる確率が高い


6.2.中級
「0714」などで検索すると「商業サイトの07/14の記事にあたる確率高い」
 てっとりばやく最新記事を探したり、特定時期の記事を探すのに有効。
「200307」なら2003年の07月。
(上記はあくまでURLにある手がかりを見ているってこと)新聞社のURLを見て、研究してみましょう。


 検索はURLにも有効。「cnn」ならCNNの記事。zdnetなら「ZDnet」の記事を探す。
 「artifact」とやれば、artifactを含む記事だが、artifactが報じている記事も探せる。


7.ネタを探す方法
 NCSに投稿でちょっとやってみて思った方法


 ランクの高い記事はあるいみ「既報」なんで面白みは正直無い。
 被リンク数の少ない記事で、「古くない」記事をザット見る。
 (昔メジャーな記事がランキングが落ちてることもあるので、被リンク数少ない=新着にはならない)
 で、次は、適当に検索して「チェック」
 最後は、ランダム記事選択。すべてを見るのはつらいので(なにせ3000件ですから)
 ランダムで何度かリロードして、見ておく。「なんかひっかかる記事」が見つかるかもしれない。
 (NCSなら投稿時にURL重複をチェックするので、既報を投稿は防げます)


8.最後に、カテゴリ分類が一応あります。
 これはまだ実験に近いです。みさきニュースと比べると少ないし、
 被リンク数だと「新鮮な記事」ではなくて「古い記事が上位に来る」のでやや使いづらいです。
 デジタルAVなんかは速報性が命なので、そのへんを考えて手法を研究中です。
 「商用ニュース限定」も実はカテゴリニュースの一部でやっています(辞書で判断しているんですね)