先週の電通大のUCT理論の解説のノート


美添さんの発表のメモ。数式は控えめで判りやすかったです


UCB1の囲碁は一応作ってみてるんので、計算の意味は分かっているつもりですが
山下さんが「(UCB1の)アルゴリズムはよくできている」とおっしゃっていたのが印象的でした


山下さんが言われてましたがMoGoとCrazyStoneで方向性が違うようです。


MoGoはPlayoutは軽く作ってUCTの部分を重視(要するに深く読むことを重視)
CrazyStoneとAyaMCは、Playoutを重視(要するに正確なPlayoutを重視)


その分、19路だとAyaMCは3手ぐらいしか読めない場合があるらしい(終盤近づけばPlayoutが速くなるので深く読めるようになるんでしょう)
13路でAyaMCが優勝したようですが、盤面が大きいほど、知識を入れているAyaMCは強いんじゃないだろうか。
逆に9路は、Playoutを軽くして深く読んだ方がいいのかも


あとモンテカルロはシチョウに弱いというのはなるほどなって感じです。シチョウは決定的な最善手が互いに続くわけで、
ゲームとして将棋に近い状態だと言うわけです。


会場で質問が出ていて、誤解されてそうなのが、
「正確なPlayout」という言い方。
正確というのは、よりもっともらしいPlayoutとなる。言うなれば、Playoutだけでも強いということ。
ただし、決まった手だけしか指さないという訳ではない。
呼び出す度に遷移は変わってくる(確率的に変な手は指しにくいということ)
「どんな悪手も0.1%は確率を残しておく」
(ただ、刈るべき所は刈らないいかんのでしょうけど現実は。プログレッシブワイドニングみたいなのはそういうことだと思う)




柿木さんが55将棋の自己対戦棋譜からの学習を発表されましたが、位置評価の値などはメモっているので
自分でもやってみたときは値が近くなるか検証に使おうと思います