今後の機械学習の方向性

  • 序盤の金銀の位置を学習

 棚瀬さんの自戦記や、TACOSのGPW発表にあるような方向
 王、金、銀だけの部分ハッシュを作って、プロの棋譜から、出現回数をカウントして、
 評価関数で加点する。
 棋譜の手を真似るのとは違うけど、序盤は駒が当たらないから静止探索後の局面じゃなくても、
 棋譜の局面をカウントするだけで、大丈夫と思う。
 これができれば序盤はある程度完成。
 囲いを重視するという問題点もあるが、ドーピングして、駒得重視に調整をすればいいかと。
 序盤の駒得は有利ですから。

  • 王の周囲の利きの得点を学習

 これは棚瀬さんの自戦記にある。
 要は、王の位置毎に、周囲の利きの重なり毎の得点を棋譜から学習するというもの
 このへんができると終盤が強くなり、深いところが強くなると中盤も強くなると思う

 GA将!さんがオセロで学習を学習中ですが、
 静止探索後の局面の特徴を使えば、強化学習がうまく行くような予感がする(TD-Leaf)
 進行度も含めてなにかとっかかりを得たい。
 自己対戦や、対bonanzaなどで学習を実現させたい