TD-バックギャモン

強化学習(森北出版)を寝る前にぼちぼち読んでるんですが、
TDバックギャモンが凄いですね。
TDチェッカーはゲームの学習の成功例で有名ですけど


TDギャモン (TD-Gammon)
http://www.ai-gakkai.or.jp/jsai/whatsai/AItopics4.html


TDバックギャモンは、隠れユニットを持った階層型のニューラルネットを使ってて
勝利確率をバックプロパゲーションで学習している
バックギャモンの知識はなにも入れて無くて、自己対戦30万回ぐらいやらしたら、
当時最強のバックギャモンプログラムと互角まで強くなった。

1989年のバックギャモン国際オリンピック大会で圧勝
人間が知らないような序盤を作り出して、
1995年ごろの話では、人間の最強プレイヤーもTDギャモンの序盤を採用するようになったらしい(えー


バックギャモンの盤面から198入力で、中間層に40-80の隠れユニット
入力の重みは、将棋だったら、位置評価だったり駒割だったりでしょうけど、
隠れユニットには何が学習されるんでしょうね?