強化学習とパーセプトロンの違い

http://d.hatena.ne.jp/streakeagle/comment?date=20070819#c
>別の言い方をすると、パーセプトロンの教師信号は
>「ある入力(画像とか将棋の局面とか)に対して、どの様な値を出力すべきか」を表すものです。


>強化学習の報酬は「今まで色々な行動をしてきて色々な状態を訪問したけど、
>それに対して現時点で与えられる得点はこれだけです」という値です。』 (2007/08/20 21:59)


GA勝!さんといしざきさんがコメント欄で違いについて議論されている。


そう考えると、ボナンザの棋譜からの評価関数の学習は、パーセプトロン的と言えますね。
棋譜を評価関数に写像しているというか、逆か。
評価関数が棋譜と同じ手を返すように逆変換しているというか。


あまり深く考えてなかったですが、強化学習は、報酬を自分で作り出して学習するわけですね
農工大のTD法は、手を指すことで変化した評価関数の値の上下を利用して学習していました。
ある手を選択したときに、そのときの手を指したときの局面上の特徴の評価を高める
http://d.hatena.ne.jp/mkomiya/20070401#p2



Eは評価関数で
P(E)=1/(1+e^E)のシグモイド関数のとき
W未来 = W現在 + α ・ ( P現在 - P過去 ) ・Σλ・p x (1-p)・x(i)