位置評価のモデル

位置評価についてですけど、うまく学習するとなめらかな感じですが、
ノイズに過学習したり、変な手の影響を受けたりの細かい凹凸もあるのだろうと思います
そこでL1、L2などの制約をつけると、なめらかな連続値がつくと

この時、位置評価を王との距離によるシグモイド曲線と仮定すれば、

PositionEvalute = 駒の価値 x ( 0.5 - 1/(1+exp(-distance x alpha) );

と表せるので、必要なのはalphaだけになります。
こういうのが多項式近似なんでしょうね。
もしこの仮定が妥当なら、過学習してでこぼこにもならないし、
外れ学習値にたいしてもロバストだし、
そもそも学習すべきパラメーターがー激減。


で、全体では、この曲線が回転したような形になるはず
(上下で非対称、左右は王の位置によって非対称)
ただ、王とすごく近い所は、駒の特性が出てくるので
かならずしも滑らかではないと思う。
マクロとミクロはふるまいが違うというか