2014年7月6日日曜日

apache S4

論文

  • S4: Distributed Stream Computing Platform
    Leonardo Neumeyer, Bruce Robbins, Anish Nair, Anand Kesari
    Proceedings of the 2010 IEEE International Conference on Data Mining Workshops, Pages 170-177, 2010
  • Performance Evaluation of Yahoo! S4: A First Look
    Chauhan, J; Chowdhury, S.A. ; Makaroff, D.
    Proc of .P2P, Parallel, Grid, Cloud and Internet Computing (3PGCIC), 2012 Seventh International Conference on
    pp. 58-65, 2012

所感

  • 2010年にYahooが発表したフレームワーク。その後apacheに移管されたが、あまり話を聞かない。
  • ストリーム処理を連続したイベントの処理として考え、イベントをノードが投げ合う。イベントを受け取ったノードはイベントを作成して送出する。
  • KVペアをベースにキーで分散先を指定して投げつけるというつくり。キーが同一であれば一つのノードに行くはずなので、そこで集計処理ができる。つまりシャッフル相当のことがこれで実現できている。なので基本的にはMapReduce ができる。
  • ただし一つのキーに対するreduce 的処理を分散して実行する事はできない。これはHadoopでも一緒だが。
  • そもそも、統計的に処理をすることを前提としているので、イベントを落とすことをなんとも思っていない。負荷が上がるとどんどん落とすつくり。まあ、それでいい場合も多かろう。
  • 2010年に論文を読んだ時の印象としては、かなりプリミティブで負荷分散とかうまくいかないだろうなあ、というかんじだった。性能もなかなかくるしそう。FTについてもあまリ考えていないのかなと。
  • 2つめの論文は評価論文。でも台数も少ないし、ワークロードもスタティックでデータのロスレートを見るというぐらいであまリ参考にならない。

0 件のコメント:

コメントを投稿