探索PVがおかしいから終盤が学習できないかもしれない
前々からmisakiの読み筋PVは、合法手じゃない場合があると言われていて、
FloodgateでPVがおかしくても、勝ち負けには関係ないし放置してたんですが、
終盤の学習がオカシイのはそもそもPVがオカシイからという可能性があるんじゃないかと思います。
その点序盤は取り合い探索が不要なので、PVが無いので、PCがおかしくなることもない。
と考えると、辻褄が合います。
misakiのPVはれさぴょんを参考に三角行列でやってるですが、
まずPVが合法手かどうかをチェックすると、それは大丈夫でした。
で、探索した評価値と、PVを下って行った局面での評価値を比較すると
46手目 手番:後手 進行度=0/0 ▼v歩 9 8 7 6 5 4 3 2 1 ---------------------------+ v香v桂v銀v金 ・ ・ ・v桂v香|一a ・ ・v王 ・ ・ ・v飛 ・ ・|二b v歩 ・v歩v金 ・v銀 ・ ・ ・|三c ・v歩 ・v歩 ・v歩 ・ 歩v歩|四d ・ ・ 歩 ・v歩 ・v歩 ・v角|五e ・ 歩 銀 ・ ・ ・ ・ ・ 飛|六f 歩 ・ ・ 金 銀 歩 歩 ・ 歩|七g ・ 角 玉 ・ ・ ・ ・ ・ ・|八h 香 桂 ・ 金 ・ ・ ・ 桂 香|九i ---------------------------+ △ 歩二 棋譜の手=△55歩 △55歩▼55歩△24歩 EVpro=-12 EVpro2=88
評価値が一致してない局面が出てきます。
静止探索のロジックとPV生成に問題がある可能性が出てきました。
こういう基礎的な部分の不具合とすると、かなり間抜けなことに……
おかしなPVで、静止探索という近似評価値を使って学習してJ'が下がっても、
学習に使ってない棋譜によるクローズテストでJ'が下がるわけがないし、
強くなるはずもない。
正しいPVが作れるようにすれば終盤も学習できる可能性が出てきました。
まったく原因が分からないよりは少しは前進しました