最近読んだ論文
とか,聞いた講演とか
ページ
ホーム
ページってなんだ
2017年10月11日水曜日
Asynchronous Methods for Deep Reinforcement Learning
https://arxiv.org/abs/1602.01783
A3C を提案しているペーパ。
学習を安定化するためにexperience replay をしたりするのだけど、
- on-policy ではだめ
- メモリ食い過ぎ
という問題がある。
ので、
- 複数の学習機を同じ環境のコピー上で同時に非同期に実行して、その学習結果を共有することで安定化する
というアイディア。基本的にSarsaでもQ-learningでも適用できる。
0 件のコメント:
コメントを投稿
次の投稿
前の投稿
ホーム
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿