2012年6月19日火曜日

MapReduce '12

Session 1: Environments and Extensions to the MapReduce Programing Model

C-MR: Continuously Executing MapReduce Workflows on Multi-Core Processors  (Page 1)
Nathan Backman (Brown University) 
Karthik Pattabiraman (Brown University) 
Rodrigo Fonseca (Brown University) 
Uğ ur Çetintemel (Brown University)

シングルプロセッサ、マルチコアで連続MR.
スライディングウィンドウ単位。combinerでsubwindowを処理?

パイプラインでMap/Combiner/Reducerをつなぎ、それぞれのフェイズはマルチスレッド。
SSSのノード内とアーキテクチャが似ている。
Punctuations でwindowを区切り、順序を保証している。これもSSSと同じ。

hybrid scheduling - resource availability で切り替える。メモリ残量?
memory 重視と、latency 重視。

phoenix++と比較。 横軸window sizeを大きくしても提案システムはレイテンシが
なかなか増大しない。

stream sharing。移動平均は異なるwindow sizeでやる。
複数のC-MR でMとCを共有できる。これは SSSでもできそう。

Hadoop on Line がタイマーベースなのに対して、データのタイムスタンプを使って
やっている点が異なる。
MapIterativeReduce: A Framework for Reduction-Intensive Data Processing on Azure Clouds  (Page 9)
Radu Tudoran (INRIA Rennes - Bretagne Atlantique) 
Alexandru Costan (INRIA Rennes - Bretagne Atlantique) 
Gabriel Antoniu (INRIA Rennes - Bretagne Atlantique)

Azureでiteration intensiveなMR。
TomusMapReduce を使っている?
MPI_reduceのようなtree reductionを行う?
reduction のfactor を2つのパラメータで定義
ーreduce factor, いくつのデータでreductionを終了することにするか?
ーreduction ratio 一つのツリーの足の数

A-Brain 
brain image - genetic data の相関を見る? うまくいくとはとても思えないが。

queue は Azureのを使っている。
Pilot-MapReduce: An Extensible and Flexible MapReduce Implementation for Distributed Data  (Page 17)
Pradeep Kumar Mantha (Louisiana State University)
Andre Luckow (Louisiana State University) 
Shantenu Jha (Rutgers University)

最後にshantenuが発表。
pilotジョブに対応するpilot dataという概念は非常に興味深いが、
実装がすごく大変そう。pilotという言葉も適切かどうか疑問だ。

Session 2: MapReduce Applications

Improving the Diagnosis of Mild Hypertrophic Cardiomyopathy with MapReduce  (Page 41)
Pantazis Deligiannis (Heriot-Watt University) 
Hans-Wolfgang Loidl (Heriot-Watt University) 
Evangelia Kouidi (Aristotle University of Thessaloniki)

なぜか、session 2の一件目としてやっている。
Hadoopで心臓病診断のパラメータ学習をやっている。

SNP Genotype Calling with MapReduce  (Page 49)
Simone Leo (CRS4 & University of Cagliari) 
Luca Pireddu (CRS4 & University of Cagliari) 
Gianluigi Zanetti (CRS4)

Pydoopを使っている?
Scalable Regression Tree Learning on Hadoop using OpenPlanet  (Page 57)
Wei Yin (University of Southern California) 
Yogesh Simmhan (University of Southern California) 
Viktor K. Prasanna (University of Southern California)

SmartGrid。電力使用量の予想。Regression Tree learning.
partition data space by selecting best feature that minimize variance
- d-treeのような。

Session 3: Performance and Feature Improvements of MapReduce Execution

Investigation of Data Locality and Fairness in MapReduce  (Page 25)
Zhenhua Guo (Indiana University) 
Geoffrey Fox (Indiana University) 
Mo Zhou (Indiana University)

Parallel Iterative Compilation: Using MapReduce to Speedup Machine Learning in Compilers  
Michele Tartara (Politecnico di Milano) 
Stefano Crespi Reghizzi (Politecnico di Milano)

0 件のコメント:

コメントを投稿