2017年10月11日水曜日

Asynchronous Methods for Deep Reinforcement Learning

https://arxiv.org/abs/1602.01783

A3C を提案しているペーパ。

学習を安定化するためにexperience replay をしたりするのだけど、
- on-policy ではだめ
- メモリ食い過ぎ
という問題がある。

ので、
- 複数の学習機を同じ環境のコピー上で同時に非同期に実行して、その学習結果を共有することで安定化する
というアイディア。基本的にSarsaでもQ-learningでも適用できる。

0 件のコメント:

コメントを投稿