最近読んだ論文: Project Adam: Building an Efficient and Scalable Deep Learning Training System

2015年6月29日月曜日

Project Adam: Building an Efficient and Scalable Deep Learning Training System

Project Adam: Building an Efficient and Scalable Deep Learning Training System

Trishul Chilimbi Yutaka Suzue Johnson Apacible Karthik Kalyanaraman
Microsoft Research
Adam というのがシステム名
ImageNet で評価。
より少ないマシンで効率よく学習しているという主張。
2 bilion のモデル
複数のモデルをパラメータストアで同期
個々のモデルそのものも複数のノードに分散
データサーバ - 10-100TBものデータを更に変形して食わせる。変形のために専用のサーバ群を用意する。
パラメータサーバとの通信
- convolution についてはパラメータ数が小さいので普通にやる
- full connection の部分は、データ量が多くなるので、activation and error gradient vectorを送って、計算はparameter Server 側で行う。これでデータ通信量が MN から k (M+N) になる。
- parameter serverの実装
- shard table を使った分散実装。shard size１MB
- delayed persistence - loss を許容している。

0 件のコメント:

コメントを投稿

登録: コメントの投稿 (Atom)