今後の機械学習の方向性
- 序盤の金銀の位置を学習
棚瀬さんの自戦記や、TACOSのGPW発表にあるような方向
王、金、銀だけの部分ハッシュを作って、プロの棋譜から、出現回数をカウントして、
評価関数で加点する。
棋譜の手を真似るのとは違うけど、序盤は駒が当たらないから静止探索後の局面じゃなくても、
棋譜の局面をカウントするだけで、大丈夫と思う。
これができれば序盤はある程度完成。
囲いを重視するという問題点もあるが、ドーピングして、駒得重視に調整をすればいいかと。
序盤の駒得は有利ですから。
- 王の周囲の利きの得点を学習
これは棚瀬さんの自戦記にある。
要は、王の位置毎に、周囲の利きの重なり毎の得点を棋譜から学習するというもの
このへんができると終盤が強くなり、深いところが強くなると中盤も強くなると思う
GA将!さんがオセロで学習を学習中ですが、
静止探索後の局面の特徴を使えば、強化学習がうまく行くような予感がする(TD-Leaf)
進行度も含めてなにかとっかかりを得たい。
自己対戦や、対bonanzaなどで学習を実現させたい