ヒューリスティックな位置評価に自動学習を加味するぐらいの感じで

前回の電通大の講演で、柿木さんに聴いた感じだと、
ペナルティもやってるけど、そんなに厳密に考える必要はないと。
要するに、保木さんのたてた数式も、保木さんがこれでいいだろうと思って立ててるだけで、
要は、必要なことが満たせればいいわけで。
究極的には強くなればなんでもいいわけです。


55将棋の学習のときは、絶対評価が50(-50)を越えないようにフィードバックされてるようです。
http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-kakinoki.pdf
このスライドを見ると判りますが、一番大きくて50を越えてないですね。
これは歩兵の価値100の半分という感じなんだろうと思います。


今まで学習をやってJは下がるし棋譜との一致度は向上するけど、現実弱くなるのは、


コマが移動するだけで、全体の位置評価の合算が、歩の交換値(すなわち200)を越えるぐらい変動してるんだと思います。
それだと歩の純粋損を放置して、コマが動く手を選んでしまう。
ただ、これは難しくて、厳密には一つのマスの絶対位置評価が10だと81マスでコマが20コマ盤上にいると仮定すると、
最大だと10x20=200ぐらい前後する可能性があるということで。ちょうど歩兵の交換値と一致する。
逆にいうと、絶対位置の補正が+10ぐらいなら最悪の場合も歩兵損の評価より下回ると言えると思う
(実際は+20ぐらいまでは平均で考えて最大でも=歩損ぐらいかな?)


なんかながながと書きすぎですが、自動学習での値の変動は少なめにすれば、Jを下げながら強くすることもできるだろうと。