勝ちから遡って学習する

http://www.ai-gakkai.or.jp/jsai/whatsai/AItopics4.html

右の図は，前の図の一つ前の黒番の場面です．この配置から２回コマを動かして赤が勝ったので，
この場面での赤の勝算を，前の図の場面と同じように増やします．このように，強化学習では，
勝った場面からどんどん前にたどった場面の勝算も増やすようにすることで，
コマを動かすたびに教えてもらわなくても，いろいろな場面での勝算を学習できます．
（中略）
さらに，もう一つ工夫があります．勝敗が決まる一つ手前と二つ手前のどちらの場面でも
勝算を増やすのですが，その増加分は一つ前の方が二つ前より多くなるようにします．

試合結果から遡って学習って激指やってましたよね？　そういえば。
それって強化学習だったんだ……

ただ、1試合の結果でパラメータを調整すると、オーバーフィッティングしそうですね。
とりあれず憶えておいて、5000試合ぐらい集計して、1更新するとかすれば
ボナメソみたいに汎化能力が出そう。
もしくは1試合単位で小数点単位で調整して、直接、評価関数に影響が出ないようにするとか

このへんはGA将！さんは色々とノウハウがありそうですね