ATARIゲームの盤面とアクションを入力にして次の画面を予測する。
encoding network とdecoding networkを組み合わせる。
真ん中にRNNを入れるバージョンと、入力画面を数フレーム分アンロールして
与えるバージョン(feedforwardと呼んでいる)の2つを作ってテストしている。
encoding network とdecoding networkを組み合わせる。
真ん中にRNNを入れるバージョンと、入力画面を数フレーム分アンロールして
与えるバージョン(feedforwardと呼んでいる)の2つを作ってテストしている。
予測性能を見ると、場合によってどちらが良いかが変わるようだ。
さらにDQNの学習に予測した画面を用いることで性能が向上すると主張している。スコアをみるとほとんど変わってないが、QBertでは大きく向上しているように見える。
QBert ってこんなゲームなのか。。
https://www.youtube.com/watch?v=karPYs22ACc
https://www.youtube.com/watch?v=karPYs22ACc
0 件のコメント:
コメントを投稿