2017年10月11日水曜日

Continuous control with deep reinforcement learning

Actor-critic のDeep Learning 版?
  • DQNというかQ-learningではベストなactionを検索する必要が有るので、action spaceが広かったり連続だったりすると扱えない。なのでActor-Criticをベースにする。ActorはQやVとは独立のネットワークでactionを決定するのでこのような問題がない。
  • 学習を安定化するために、Qネットワークμネットワークにそれぞれtargetネットワークを作り、そちらを更新するようになている。これは [minh et al 2013] でやられていることと同じらしい。
  • Off ポリシなので、exploration が用意。

0 件のコメント:

コメントを投稿