GI研究会に入ったので過去の研究論文を読みまくり

会社で論文読みまくり(^^;;

情報処理学会Bookpark
http://www.bookpark.ne.jp/ipsj/

今年の6月付の北陸先端大TACOSチームの

2. 進行度を用いたボナンザメソッドの提案 
 松井利樹、橋本剛、橋本隼一、野口陽来

すごい参考になる！
http://fw8.bookpark.ne.jp/cm/ipsj/select_signotes3.asp?category2=GI&vol=2008&no=59&code=2008-GI-020

なんとなんと。探索しないでもBonanzaMethodは学習できる！という驚異的な事実が！ｗ
ただ、末端が棋譜の局面でいいけど、評価値は静止した値が必要
（なんとTACOSチームは、交換値を足しただけの値で学習させた模様）
色々とペナルティを工夫してるから上手く行ってるのかもしれませんが、

自分も今のやつで、間違って評価値は静止探索だけど、末端まで進ませるのを忘れて学習させたことがありましたが、
ちゃんとJが下がるので変だなあと思ってました。

なお、3万局を１ステップ1時間で学習できるそうです（探索しないので）

あと、目から鱗だったのが、「ペナルティは進行度序盤は強めで、進行度終盤は弱める」
これは言われてみれば確かにそう。序盤は駒得重視だから位置評価は下げないといけないけど
終盤は働きとか速度が重要だからペナルティはさげていい。
進行度を加味して学習してないから考えてなかったけど、
言われてみれば、確かにその通り。

そのほかにもGPSチームの「静止探索でProbCut」とか今まで読んだこと無かったので参考になります。
コンピュータ将棋の英知の宝庫ですね