2015年6月29日月曜日

Project Adam: Building an Efficient and Scalable Deep Learning Training System

Project Adam: Building an Efficient and Scalable Deep Learning Training System

  • Trishul Chilimbi Yutaka Suzue Johnson Apacible Karthik Kalyanaraman
  • Microsoft Research
  • Adam というのがシステム名
  • ImageNet で評価。
  • より少ないマシンで効率よく学習しているという主張。
  • 2 bilion のモデル
  • 複数のモデルをパラメータストアで同期
  • 個々のモデルそのものも複数のノードに分散
  • データサーバ - 10-100TBものデータを更に変形して食わせる。変形のために専用のサーバ群を用意する。
  • パラメータサーバとの通信
    • convolution についてはパラメータ数が小さいので普通にやる
    • full connection の部分は、データ量が多くなるので、activation and error gradient vectorを送って、計算はparameter Server 側で行う。これでデータ通信量が MN から k (M+N) になる。
    • parameter serverの実装
    • shard table を使った分散実装。shard size1MB
    • delayed persistence - loss を許容している。

0 件のコメント:

コメントを投稿