将棋の評価関数をニューラルネットワークにしてみる?

GA勝!さんはこの方向でがんばられてるようですが、


現在の絶対位置学習は、


プロの棋譜を使う教師あり学習
手の強化・抑制
という感じですが、


絶対位置の得点を特徴と考えると、


Eval=ΣWX


評価関数は特徴の線形和になっている。
Xは駒があるかないかの2値。Wはシナプスと考えられる。


最急降下法は、評価関数の微分が0になるところ。すなわち極限になるように学習ですよね。
これは、簡単に考えれば、二次関数なら底。関数が多次元なら、ローカルミニマム(マキシマム)に落ち着くように
移動させているって感じかな



シナプスという重みで各神経の結果が合計されて最終結果を作るのがニューロと考えると、今の評価関数もニューロと言えばニューロだよな
ニューロってどのへんからニューロなんだろ?(^^;


という話は置いておいて、ニューロだと、やはり階層ですよね。


Eval=ΣW(ΣWX)
みたいに階層化してみる。
これをやると各特徴同士のかけ算結果も評価に組み込まれるので、線形の評価関数では記述できないような
非線形な評価もできそう。


Bonanzaの学習法は保木さんも書いてるけど、非線形な評価に対しても行えるとありますね