2007-02-24 文字化けがおきることがある ブログクローラーはrssを見に行ってますが、rssはxmlなので文字コードはutf-8なんですが エントリーによって文字化けすることがあるようです。 なんで明示的にutf-8に変換すると多少マシになったんですが、 perlの場合、utf-8フラグというややこしいものがあって、 そのへんをやるとうまく行ってそうでもあり、でもrssによってはparserがエラーで落ちる(´Д`;) とりあえず、 jugem、fc2をクロールするようにしました。が、予断は許されない。 今のところ保持エントリー数は約9000。