bona412で自前学習中

まずは強い評価関数が自前で学習出来ることを確認しようと思います。
それが確認できたら、
評価関数に改良を加えて、再度学習してみようかと。
方向としては利きと手番を追加してみるとか。
bona4系は終盤の入り口が弱いとisseiさんが以前ブログに書いてましたが、
それがなぜなのか?と気になります。
進行度というギアチェンジの仕組みが無いので、bonaはオートマだと思うんですが、
通常のCOM将棋の場合は、ギアチェンジをする仕組みもロボットが行っているんだと思います
(ロボットがギアチェンジするマニュアルミッション)
(そういえばbona1や3の頃から、bonaはそもそも過去にも進行度を持ってないだったかな?)


pc_on_sqにおいては、と金以外にも成香や成銀もすべてgold扱いになってますが、
これを分けてしまうと、ただでさえ出現回数が少ないのがさらに減るので、
一緒にしていることには意味があると思えます
持ち駒に関しては別に学習されてるので、成銀をとった場合と成香をとった場合の差はそこに含まれてるんじゃないかと。
そういう方向性では、飛車と龍を思い切って同一視してみるなどが、逆にいい結果を得るかも。


方向してとしては、少ないテーブル数で重ね合わせを駆使して一般化するか、
でかいテーブルを時間をかけて学習させて、頻度の少ない特徴を学習させるか?
前者は、特徴を分割することで一般化しているのは「開発者の知性」であって、
あえて細かい特徴を用意せずに、ざっくり巨大テーブルを自力で学習させているbona4系評価関数の方が
よりCOM将棋が考えているんではないかと思います。
細かい特徴をたくさん追加して行く作業はしんどいので、
後者が自分は好みです。


人間の場合は、対象に合わせてハードウェアとしての神経細胞が最適化しながら全体が最適学習するので、
重ね合わせをやるべく自らが一般化していくから、高速に学習が可能なのでしょう。
COM将棋の現在の学習に足りてないのは、一般化を自ら行える能力だと思いますが、
実際、それを実現する方法は難しすぎて自分にはできそうもない(^^;
自己組織化とかの概念かもしれない。
(自己組織化させるアイデアをひとつ思いついているのですが、
正しいかどうかを数学的には検証できないので、実際に学習させて勝率で判断したいと思います)