職場でmySQLを実験

前々からDBやらんとなー。と思ってましたが、ようやくmySQLperlが使ってみました。
要は、connectして、SQL文をprepareして、finishしたら発行。最後はdisconnectすればいいだけじゃん。
SQL自体は、SELECT、INSERT、DELETEでとりあえずやりたいことはほとんどできる。
小規模検索エンジンと作っているんですが、クロールした結果をmySQLにためておいて、SELECTで検索する仕組みにしたら、
ものすごく検索が軽くなりました。


LWP::userAgentで取得したhtmlから、html::LinkExtorで外部リンクを抽出
http://homepage3.nifty.com/hippo2000/perltips/html/LinkExtor.htm
そこからpng,jpg,gifなどのバイナリと思われるリンク先を除外して、
さらにそのURLをgetで取得って感じのクローラー(現状、リンクは1階層のみ。再帰呼び出しで多階層も取れるが数が膨大になる)
180サイトから1階層をクロールして、総ファイルが2000ぐらいできた。


openSSLがうまく入らないので、httpsなサイトはクロールできませんが、今後は最終更新時刻を考慮して、
アンテナにしてみようかと思います。
さらに改良するなら、データの差分で更新のありなしを判断するようにして、さらに広告部分の更新は更新とみなさない仕組みを入れてみるとか
はてなアンテナは広告更新でも反応するのでそこは改良の余地ありと思いますヨ)


明日は年休をとりましたので、xreamySQLを使う仕組みを調べたいと思います。
あと、将棋開発もがんばってみましょう。