最近読んだ論文: 10月 2017

2017年10月11日水曜日

Asynchronous Methods for Deep Reinforcement Learning

https://arxiv.org/abs/1602.01783

A3C を提案しているペーパ。

学習を安定化するためにexperience replay をしたりするのだけど、
- on-policy ではだめ
- メモリ食い過ぎ
という問題がある。

ので、
- 複数の学習機を同じ環境のコピー上で同時に非同期に実行して、その学習結果を共有することで安定化する
というアイディア。基本的にSarsaでもQ-learningでも適用できる。

Continuous control with deep reinforcement learning

https://arxiv.org/abs/1509.02971

Actor-critic のDeep Learning 版？

DQNというかQ-learningではベストなactionを検索する必要が有るので、action spaceが広かったり連続だったりすると扱えない。なのでActor-Criticをベースにする。ActorはQやVとは独立のネットワークでactionを決定するのでこのような問題がない。
学習を安定化するために、Qネットワークμネットワークにそれぞれtargetネットワークを作り、そちらを更新するようになている。これは [minh et al 2013] でやられていることと同じらしい。
Off ポリシなので、exploration が用意。

ページ

2017年10月11日水曜日

Asynchronous Methods for Deep Reinforcement Learning

Continuous control with deep reinforcement learning