探索PVがおかしいから終盤が学習できないかもしれない

前々からmisakiの読み筋PVは、合法手じゃない場合があると言われていて、
FloodgateでPVがおかしくても、勝ち負けには関係ないし放置してたんですが、


終盤の学習がオカシイのはそもそもPVがオカシイからという可能性があるんじゃないかと思います。
その点序盤は取り合い探索が不要なので、PVが無いので、PCがおかしくなることもない。
と考えると、辻褄が合います。


misakiのPVはれさぴょんを参考に三角行列でやってるですが、
まずPVが合法手かどうかをチェックすると、それは大丈夫でした。


で、探索した評価値と、PVを下って行った局面での評価値を比較すると

46手目 手番:後手 進行度=0/0
▼v歩
 9 8 7 6 5 4 3 2 1
---------------------------+
v香v桂v銀v金 ・ ・ ・v桂v香|一a
 ・ ・v王 ・ ・ ・v飛 ・ ・|二b
v歩 ・v歩v金 ・v銀 ・ ・ ・|三c
 ・v歩 ・v歩 ・v歩 ・ 歩v歩|四d
 ・ ・ 歩 ・v歩 ・v歩 ・v角|五e
 ・ 歩 銀 ・ ・ ・ ・ ・ 飛|六f
 歩 ・ ・ 金 銀 歩 歩 ・ 歩|七g
 ・ 角 玉 ・ ・ ・ ・ ・ ・|八h
 香 桂 ・ 金 ・ ・ ・ 桂 香|九i
---------------------------+
△ 歩二
棋譜の手=△55歩
△55歩▼55歩△24歩
EVpro=-12 EVpro2=88

評価値が一致してない局面が出てきます。
静止探索のロジックとPV生成に問題がある可能性が出てきました。


こういう基礎的な部分の不具合とすると、かなり間抜けなことに……
おかしなPVで、静止探索という近似評価値を使って学習してJ'が下がっても、
学習に使ってない棋譜によるクローズテストでJ'が下がるわけがないし、
強くなるはずもない。


正しいPVが作れるようにすれば終盤も学習できる可能性が出てきました。
まったく原因が分からないよりは少しは前進しました