GA勝さんのとこの自動学習

http://d.hatena.ne.jp/streakeagle/20070315/1173966648

歩を持ちすぎると価値が減っていくあたりとかそれっぽい感じに学習してますね〜
うーむ。
角が評価下がってますね(w
うーむ。
東京農工大の論文でも、駒の価値とか位置評価、王の囲いの評価は強化学習でやってたんですが、
駒の価値はけっこう学習させるたびに変わるみたいな感じに終わってたんですが、
うまく行ったんですね。


方式自体はBonanzaみたいな手法なのかなあ?
要は、GPS将棋の論文で言うところの兄弟モデルの差し手とプロの指した手(教師)の評価関数の差分の和が、最小になるように
評価関数のパラメーターを調整する手法?
自分がやったときは、評価関数のパラメーターを調整するために、評価関数の偏微分を作るあたりで行き詰まった。