TD-バックギャモン

強化学習（森北出版）を寝る前にぼちぼち読んでるんですが、
TDバックギャモンが凄いですね。
TDチェッカーはゲームの学習の成功例で有名ですけど

TDバックギャモンは、隠れユニットを持った階層型のニューラルネットを使ってて
勝利確率をバックプロパゲーションで学習している
バックギャモンの知識はなにも入れて無くて、自己対戦30万回ぐらいやらしたら、
当時最強のバックギャモンプログラムと互角まで強くなった。

1989年のバックギャモン国際オリンピック大会で圧勝
人間が知らないような序盤を作り出して、
1995年ごろの話では、人間の最強プレイヤーもTDギャモンの序盤を採用するようになったらしい（えー

バックギャモンの盤面から198入力で、中間層に40-80の隠れユニット
入力の重みは、将棋だったら、位置評価だったり駒割だったりでしょうけど、
隠れユニットには何が学習されるんでしょうね？