50局で学習しようシリーズ最終回
100ステップ 50局 合計5254手 J=10280.809570 J'=1.956759 0時間33分10秒 歩 香 桂 銀 金 角 飛 と 杏 圭 全 馬 龍 100, 396, 317, 419, 754, 661, 808, 438, 369, 437, 623, 988,1215, 1.9/2611| 1.9/413| 2.2/393| 2.1/693|
ペナルティの計算にバグがあったので直したらJ'がついに2を切った。
2を切るのが目的だったので最終回です
次回からは200局で学習しよう(50step)シリーズにします
評価関数で評価値を再現する行為は、連想配列に似ている。いわゆるハッシュ
ただ、ハッシュのような単純なものではない。ハッシュは定跡と同じで同じ局面しか再現できないから。
そう考えると分散化した記憶を用いた連想記憶になっていると思う
学習のやり方自体は、ボナメソ以外にもTDとか色々あるだろう
でも、連想記憶という概念は人間とも同じだし、ここはガチで定理なのかもしれない
他にも手段はあるだろうか?
(モンテカルロは評価関数を使わずに末端を利用するのでやはり異端かなあ)