最近読んだ論文
とか,聞いた講演とか
ページ
ホーム
ページってなんだ
2017年10月11日水曜日
Asynchronous Methods for Deep Reinforcement Learning
https://arxiv.org/abs/1602.01783
A3C を提案しているペーパ。
学習を安定化するためにexperience replay をしたりするのだけど、
- on-policy ではだめ
- メモリ食い過ぎ
という問題がある。
ので、
- 複数の学習機を同じ環境のコピー上で同時に非同期に実行して、その学習結果を共有することで安定化する
というアイディア。基本的にSarsaでもQ-learningでも適用できる。
Continuous control with deep reinforcement learning
https://arxiv.org/abs/1509.02971
Actor-critic のDeep Learning 版?
DQNというかQ-learningではベストなactionを検索する必要が有るので、action spaceが広かったり連続だったりすると扱えない。なのでActor-Criticをベースにする。ActorはQやVとは独立のネットワークでactionを決定するのでこのような問題がない。
学習を安定化するために、Qネットワークμネットワークにそれぞれtargetネットワークを作り、そちらを更新するようになている。これは [minh et al 2013] でやられていることと同じらしい。
Off ポリシなので、exploration が用意。
新しい投稿
前の投稿
ホーム
登録:
投稿 (Atom)