dat変換板で発見w

523 名前:名無しさん@停滞中 ★ :10/05/26 19:35:43 ID:???
やりかけメモ 
http://2chradio.com/ http://2chradio.com/jidou/ のdat化について 

URL例 
http://2chradio.com/jidou/?dat=news4vip1274753615 
http://mirror.sarashi.com/htmltodat/2chradio/1274753615.html 

正規表現 
m#<dt.+?>([0-9]+) :()<font color=green><b>(.+?)</b></font>:(.+?)<dd>(.+?)<br><br>#mik 

前処理 
s#(<title.+?) \- 自動速報vip(</title>)#$1$2#ik 
s#(ID:)<a.+?>(.+?)</a>(<dd>)#$1$2$3#igk 

今現在 
元スレ(http://yutori7.2ch.net/test/read.cgi/news4vip/1274753615/)はdat落ちしているのに 
何故か読めるので。 
いつごろまで閲覧可能なのかな 

ただしまだやりかけ。 
dat化の漏れはないのですが 
何故か空行(でもないけど)がところどころ出てしまうのは何故だろうか。 
あと本文中の強調タグ(<font>や<b>等)があちこちにあるのをまだやってないです 
それと本文中に「<br></b>」が頻繁にあるですけど「<b>」が見当たらないような。 
ってシラミつぶしに見ていないので一方的な決め付けだったらごめんなさいです 
何故か読めるので。 
いつごろまで閲覧可能なのかな 

MySQLに保存してるので(^^;

bタグのネストしてない件は、話すと長いのですが、
『や「などがあるとbタグで強調してるのですが、言葉が長くて数行に渡る場合や
元の文章が』」で閉じてない場合もあるので、Bタグで強調が放置されるので
Bタグ閉じを安全策で入れております。
HTMLパーサーなどで真面目に解釈すればいいんですが、現行、そこまで手が回っておりません(^^;
bタグ使わずにcss使いなさいよ、って話もありますが(^^;