Project Adam: Building an Efficient and Scalable Deep Learning Training System
- Trishul Chilimbi Yutaka Suzue Johnson Apacible Karthik Kalyanaraman
- Microsoft Research
- Adam というのがシステム名
- ImageNet で評価。
- より少ないマシンで効率よく学習しているという主張。
- 2 bilion のモデル
- 複数のモデルをパラメータストアで同期
- 個々のモデルそのものも複数のノードに分散
- データサーバ - 10-100TBものデータを更に変形して食わせる。変形のために専用のサーバ群を用意する。
- パラメータサーバとの通信
- convolution についてはパラメータ数が小さいので普通にやる
- full connection の部分は、データ量が多くなるので、activation and error gradient vectorを送って、計算はparameter Server 側で行う。これでデータ通信量が MN から k (M+N) になる。
- parameter serverの実装
- shard table を使った分散実装。shard size1MB
- delayed persistence - loss を許容している。