TD学習を試して見ようかな

55将棋なら問題としても小規模でいいかなと思ったんですが、


まずは
http://kaz.cyteen.nagoya-bunri.ac.jp/ai/no8.htm
このへんの迷路でもやってみようかなと
FlashC#で作ってみるかな?
明日にmacBookが届くので、iPhoneSDKを使って作れば、
一石二鳥かもしれない。
たしかエミュレーターで動かすだけなら、年会費もいらないんですよね?


将棋で考えた場合、適当に探索しながら詰みを発見して勝った場合、
詰みが確定した局面は詰みということでいいけど、そこに至ったパス(指し手履歴)に関して、
報酬を与えればいいのかな?(実際は、履歴のそれぞれの静止探索末端ってことかな? TDLeafだと)
ただ、最終局面から遠くなるほど、報酬を減らしながら。
TD(λ)のラムダが、報酬を少なくする係数みたいね。少なくしないと収束しないってことで。


最終的に、詰められそうな必至な局面は評価が高くなってくれて、
かつ、序盤の駒組みまで得点がつけばいいんだけど。
GA将!の場合、序盤はどういう局面が高く学習されるんだろう? ちょっと見てみたいものです。
さすがに囲いは学習できないと思うけど、でも偶然囲っていた場合に勝率が高ければ、
囲いも学習できるのかなあ? 人間だって、囲っていた方が将来安全だから保険の意味で囲ってるわけでしょ?
それは、痛い目に合うことで学習するわけでしょ?
自転車に乗る時にヘルメットを子供にかぶらせるのは、転んだら怪我するからでしょ? 子供は転びやすいからでしょ?