https://arxiv.org/abs/1602.01783
A3C を提案しているペーパ。
学習を安定化するためにexperience replay をしたりするのだけど、
- on-policy ではだめ
- メモリ食い過ぎ
という問題がある。
ので、
- 複数の学習機を同じ環境のコピー上で同時に非同期に実行して、その学習結果を共有することで安定化する
というアイディア。基本的にSarsaでもQ-learningでも適用できる。
2017年10月11日水曜日
Continuous control with deep reinforcement learning
Actor-critic のDeep Learning 版?
- DQNというかQ-learningではベストなactionを検索する必要が有るので、action spaceが広かったり連続だったりすると扱えない。なのでActor-Criticをベースにする。ActorはQやVとは独立のネットワークでactionを決定するのでこのような問題がない。
- 学習を安定化するために、Qネットワークμネットワークにそれぞれtargetネットワークを作り、そちらを更新するようになている。これは [minh et al 2013] でやられていることと同じらしい。
- Off ポリシなので、exploration が用意。
2017年8月23日水曜日
Action-Conditional Video Prediction using Deep Networks in Atari Games
ATARIゲームの盤面とアクションを入力にして次の画面を予測する。
encoding network とdecoding networkを組み合わせる。
真ん中にRNNを入れるバージョンと、入力画面を数フレーム分アンロールして
与えるバージョン(feedforwardと呼んでいる)の2つを作ってテストしている。
encoding network とdecoding networkを組み合わせる。
真ん中にRNNを入れるバージョンと、入力画面を数フレーム分アンロールして
与えるバージョン(feedforwardと呼んでいる)の2つを作ってテストしている。
予測性能を見ると、場合によってどちらが良いかが変わるようだ。
さらにDQNの学習に予測した画面を用いることで性能が向上すると主張している。スコアをみるとほとんど変わってないが、QBertでは大きく向上しているように見える。
QBert ってこんなゲームなのか。。
https://www.youtube.com/watch?v=karPYs22ACc
https://www.youtube.com/watch?v=karPYs22ACc
2017年8月21日月曜日
A filter based approach for inbetweening
ドワンゴの中割論文。Arxivに、日本語の論文がおけるというのが新鮮な驚き。基本的に入力を2枚与えると、補間した1枚が出力されるというネットワークを作っている。
- data augmentation として、平行移動、回転。
- ネットワークは低解像度と高解像度のネットワークを使う、と書いてあるがどうつながってるのかわからない。
全体に何をやったのかよくわからない。。うまくいったのかどうかの評価も曖昧。
登録:
投稿 (Atom)