枝狩りの学習

よく考えたらどうやってやってるのかよく解らなかったので
akiさんのブログを読み返しました。

  • 枝狩りできたのにしなかった回数
  • 枝狩りしてはいけないのにした回数

この両者がいづれも減ればいいわけですね。
ボナメソ的には、


教師棋譜を使って、
J=ΣT[f-fpro]と定義した場合、通常はfは探索末端の評価ですが、
枝狩り学習の場合は、「枝狩りできたのにしなかった回数」を設定すればいいのかな?


futilityのマージンが関数としてmargin(手)で与えられる時に
現行のmarginを使って枝狩りしなかった場合に、やってみて出来た場合とは、
枝狩りをしてもalphaを更新しなかった場合(PVが変化しない)の回数をカウントすればいいのかな?


ここに、margin(手、残深さ、進行度)という関数にしたのが最近のBlunderの改良だろうか?
違うかもしれないけど、それはそれでいいかも