強化学習で迷路を解く


強化学習で迷路を解く


これは解りやすい。Javaでグラフィカルに見れる。
ソースとか説明はないので、想像すると、


迷路をスライムが初めはランダムにゴールを目指すけど、
たまたまゴールにたどり着くと、歩いた経路に+1で報酬をつけるんでしょう。
これを繰り返すと、
ゴールに行けた経路のうち重複したマスは報酬が積み重なる。
あとは、なるべく報酬が積み重なったマスを移動するようにすれば
迷路の経路を学習して最短経路で進めるようになる。



粘菌で迷路を解くのと似ている。ただ、粘菌は一人ではなく、複数の経路に
同時に枝を伸ばす。そこが並列処理になっている。
このサンプルはスライムは1匹だけど、本来、何匹もいてもいい。
とか考えると、スライムの報酬は、アリのフェロモンと同じだ。
アリは並列処理でエサを探し、フェロモンで同期をとっている。
自然はなんと賢いのだろう。