最近読んだ論文: Continuous control with deep reinforcement learning

2017年10月11日水曜日

Continuous control with deep reinforcement learning

https://arxiv.org/abs/1509.02971

Actor-critic のDeep Learning 版？

DQNというかQ-learningではベストなactionを検索する必要が有るので、action spaceが広かったり連続だったりすると扱えない。なのでActor-Criticをベースにする。ActorはQやVとは独立のネットワークでactionを決定するのでこのような問題がない。
学習を安定化するために、Qネットワークμネットワークにそれぞれtargetネットワークを作り、そちらを更新するようになている。これは [minh et al 2013] でやられていることと同じらしい。
Off ポリシなので、exploration が用意。

0 件のコメント:

コメントを投稿

登録: コメントの投稿 (Atom)