https://www.robots.ox.ac.uk/~vgg/publications/2019/Han19/han19.pdf
- 自己教師あり学習でビデオから時空間埋め込みを学習。人間の動作認識
- Dense Predictive Coding という手法を提案
recurrently predicting future representation
- カリキュラムトレーニング
- Kinetics 400 で事前学習してaction recognitionで評価
最近読んだ論文
とか,聞いた講演とか
2020年5月11日月曜日
2017年10月11日水曜日
Asynchronous Methods for Deep Reinforcement Learning
https://arxiv.org/abs/1602.01783
A3C を提案しているペーパ。
学習を安定化するためにexperience replay をしたりするのだけど、
- on-policy ではだめ
- メモリ食い過ぎ
という問題がある。
ので、
- 複数の学習機を同じ環境のコピー上で同時に非同期に実行して、その学習結果を共有することで安定化する
というアイディア。基本的にSarsaでもQ-learningでも適用できる。
A3C を提案しているペーパ。
学習を安定化するためにexperience replay をしたりするのだけど、
- on-policy ではだめ
- メモリ食い過ぎ
という問題がある。
ので、
- 複数の学習機を同じ環境のコピー上で同時に非同期に実行して、その学習結果を共有することで安定化する
というアイディア。基本的にSarsaでもQ-learningでも適用できる。
Continuous control with deep reinforcement learning
Actor-critic のDeep Learning 版?
- DQNというかQ-learningではベストなactionを検索する必要が有るので、action spaceが広かったり連続だったりすると扱えない。なのでActor-Criticをベースにする。ActorはQやVとは独立のネットワークでactionを決定するのでこのような問題がない。
- 学習を安定化するために、Qネットワークμネットワークにそれぞれtargetネットワークを作り、そちらを更新するようになている。これは [minh et al 2013] でやられていることと同じらしい。
- Off ポリシなので、exploration が用意。
2017年8月23日水曜日
Action-Conditional Video Prediction using Deep Networks in Atari Games
ATARIゲームの盤面とアクションを入力にして次の画面を予測する。
encoding network とdecoding networkを組み合わせる。
真ん中にRNNを入れるバージョンと、入力画面を数フレーム分アンロールして
与えるバージョン(feedforwardと呼んでいる)の2つを作ってテストしている。
encoding network とdecoding networkを組み合わせる。
真ん中にRNNを入れるバージョンと、入力画面を数フレーム分アンロールして
与えるバージョン(feedforwardと呼んでいる)の2つを作ってテストしている。
予測性能を見ると、場合によってどちらが良いかが変わるようだ。
さらにDQNの学習に予測した画面を用いることで性能が向上すると主張している。スコアをみるとほとんど変わってないが、QBertでは大きく向上しているように見える。
QBert ってこんなゲームなのか。。
https://www.youtube.com/watch?v=karPYs22ACc
https://www.youtube.com/watch?v=karPYs22ACc
2017年8月21日月曜日
A filter based approach for inbetweening
ドワンゴの中割論文。Arxivに、日本語の論文がおけるというのが新鮮な驚き。基本的に入力を2枚与えると、補間した1枚が出力されるというネットワークを作っている。
- data augmentation として、平行移動、回転。
- ネットワークは低解像度と高解像度のネットワークを使う、と書いてあるがどうつながってるのかわからない。
全体に何をやったのかよくわからない。。うまくいったのかどうかの評価も曖昧。
2016年11月4日金曜日
MAD Skills: New Analysis Practices for Big Data
- VLDB09
- Greenplum と UCB
- さまざまな機械学習アルゴリズムが並列DB上で実装可能だということを述べている
- 実装は無い
- MAD は Magnetic, Agile, Deep。
- Magnetic は何でもかんでも引きつける、ぐらいの意味で、データを選別せずになんでも入れるというぐらいのニュアンスか?
- Deep はDeep Learningとは関係なく、深い解析、ぐらいの意味だろう。
- MADという言葉はまったく流行らなかったが、中身は大変今日的で、Spark SQLやHiveMallなどで実現されている、という位置づけになるのか。
2016年10月20日木曜日
PFA : Portable format for Analytics
- データ解析において、初期のexploration に使うツールとdeploymentに使うツールに求められる性質は大きく異る。前者を本番環境で使うとだいたい酷い目に遭う。
- 前者と後者の間に共通のフォーマットを定義して、移行をスムースにする。前者が吐いたPFAを後者で読み込んで利用することをおそらく想定している。
- PMML というXMLベースのものが以前は存在したが、それよりは柔軟であると主張している。
- JSONで表現されているが、基本的にはオペレーショナルな言語で、ターゲット環境では別の言語に変換された上で実行されるのだろう。
- やりたいことは理解できるが、この手のinteroperationを実現するツールは、さまざまなツールの最大公約数的な機能しかサポートされず、結局あんまり使われない、というオチをあちこちで見たような。うまくいくんだろうか。
登録:
投稿 (Atom)