bona4型評価関数の自前学習がなかなかうまくいかない

高速化以外にも学習にも取り組んでいて、
読み筋のPVを別途保存しておいて、
同じPVでの学習ができるようになりました。
始めはPVをバイナリ出力してたんですが、
デバッグがたいへんなので、テキストで吐くようにしました
それでも、異常な手が吐かれていたり、
色々、動くまで難航しました。


で、Bona4型評価関数を改良したものを自前で学習してみたんですが、(12000局ぐらい)
序中盤はまだしも、やはり終盤がいまいち……
bona4はソース公開されていますが、
自前で再学習して強い評価関数を作れたという話は皆無ですが、
(LS3600さんもたしかなかなか難しいと書かれていた記憶があります)


進行度をもたないBona4型は、pc_on_sqの3駒リストが進行度を表現していると思うのですが、
0手+静止探索ではbona4型評価関数の学習は厳しいのかもしれません
bona4がPVの読みを深くして強くなったけれど、gpsは強くならなかった話で、
うさ親さんが、学習対象のバリエーションが増えるんだろうと書かれていましたが、
この3駒リストに癖があるのかもしれません


土日は、とりあえず進行度+位置評価の普通の評価関数を学習させてみようかなと思います