PonanzaQと再び対戦中

今度は思考時間9秒で100戦やらせてます。
まだmisaki側が不安定なので途中で落ちてるかもしれませんが。

・持ち駒の包含関係を見た探索削減(強い水平線効果対策)
・包含関係を見たhashのとりあつかい
・手生成時にpin、利きを調べない(手を指すときに調べる)(高速化)
・超簡易詰将棋で頓死確認

などを組み込みました
(というか途中まで作っていた新エンジンのコードを移植した)


npsはかなりよくなったので、
もしかしたら勝ち越してくれてるんじゃないかと。
帰宅するまで分かりませんが


旧PonanzaとPonalgamはRが100近く違うらしいので、
bonaのfv.binで旧Ponaに勝ち越しても、Ponalgamにはまだ負けるわけで、
旧Ponaに+100Rぐらいを目標にしないと。
あと、学習もやらないといけない。
私も差分評価関数に取り組みたいと思います。


http://aleag.cocolog-nifty.com/blog/2010/05/bonanza-feliz-2.html

次history。私は去年のGPW行ってませんが、棋理の佐藤さんの論文の方式なんでしょうかね。
- βカット/α更新の回数そのものでなく、使用回数に対する比率をみる
- その比率によって、オーダリングだけでなくリダクションの深さも制御する

BonanzaFelitzのhistory制御LMRは、棋理を参考にされた感じですね
忘れてました。
Averaged Perceptron的ですね


historyは、[手の種類][to]+=depth
でやってるといまいちだったので
[手の種類][to][打かどうか]+=depth
に変えてみました。
ただ、LMRの深さ制御はコメントアウトして、
今のところオーダリングのみに使ってます。
BonanzaFelitzの場合はhashを経由するちょっと複雑なindexですね

hist_goodary と hist_tried を 32 ビットの上位と下位にパックするのと
だいたい同じということですか?

あ、これやっておかねば