論文
- S4: Distributed Stream Computing Platform
Leonardo Neumeyer, Bruce Robbins, Anish Nair, Anand KesariProceedings of the 2010 IEEE International Conference on Data Mining Workshops, Pages 170-177, 2010 - Performance Evaluation of Yahoo! S4: A First Look
Chauhan, J; Chowdhury, S.A. ; Makaroff, D.Proc of .P2P, Parallel, Grid, Cloud and Internet Computing (3PGCIC), 2012 Seventh International Conference on
pp. 58-65, 2012
所感
- 2010年にYahooが発表したフレームワーク。その後apacheに移管されたが、あまり話を聞かない。
- ストリーム処理を連続したイベントの処理として考え、イベントをノードが投げ合う。イベントを受け取ったノードはイベントを作成して送出する。
- KVペアをベースにキーで分散先を指定して投げつけるというつくり。キーが同一であれば一つのノードに行くはずなので、そこで集計処理ができる。つまりシャッフル相当のことがこれで実現できている。なので基本的にはMapReduce ができる。
- ただし一つのキーに対するreduce 的処理を分散して実行する事はできない。これはHadoopでも一緒だが。
- そもそも、統計的に処理をすることを前提としているので、イベントを落とすことをなんとも思っていない。負荷が上がるとどんどん落とすつくり。まあ、それでいい場合も多かろう。
- 2010年に論文を読んだ時の印象としては、かなりプリミティブで負荷分散とかうまくいかないだろうなあ、というかんじだった。性能もなかなかくるしそう。FTについてもあまリ考えていないのかなと。
- 2つめの論文は評価論文。でも台数も少ないし、ワークロードもスタティックでデータのロスレートを見るというぐらいであまリ参考にならない。
0 件のコメント:
コメントを投稿