2012年6月21日木曜日

HPDC'12 MapReduce

Understanding the Effects and Implications of Compute Node Related Failures in Hadoop
    Florin Dinu, T. S. Eugene Ng (Rice University)

Hadoopのヘッドノードが落ちた時(メンテ時含む)に、計算へのダメージを最小化したいので
解析したという話。randomにfailure injectionして、どのような挙動を示すかを観測。
対策したというはなしではない。

Optimizing MapReduce for GPUs with Effective Shared Memory Usage
    Linchuan Chen, Gagan Agrawal (The Ohio State University)

1ノードでGPUでMapReduceをする場合の最適化。
ReductionをMapPhaseの終わりでeagerに行う最適化。
たしかphoenix+も同じようなことをしていたような。

CAM: A Topology Aware Minimum Cost Flow Based Resource Manager for MapReduce Applications in the Cloud
    Min Li (Virginia Tech), Dinesh Subhraveti (IBM Almaden Research Center), 
    Ali Butt (Virginia Tech), Aleksandr Khasymski (Virginia Tech), 
    Prasenjit Sarkar (IBM Almaden Research Center)

仮想環境ではノードの位置が隠蔽されるので、アロケーションの最適化が難しい。
CAMは仮想環境を管理するシステムで、仮想環境内のMapReduceシステムに
最適化のためのAPIを提供する。例えば、VM間の実際の距離など。

Distributed Approximate Spectral Clustering for Large-Scale Datasets
    Fei Gao (Simon Fraser University), Wael Abd-Almageed (University of Maryland), 
    Mohamed Hefeeda (Qatar Computing Research Institute)

SVMなどで用いられるカーネル計算を概算で行う方法を提案。
MapReduceで実装。Locality Sensitive Hashingというのを使って
一種のクラスタリングを行っているようだ。

2012年6月20日水曜日

HPDC2012 セッション3 I/O

Enabling Event Tracing at Leadership-Class Scale through I/O Forwarding Middleware
       Thomas Ilsche (Technische Universität Dresden),... Stephen Poole (Oak Ridge National Laboratory)

ログをアグリゲートして、dedupしてサイズを減らす。少数のIOFSL Serverに送って書きだす。
bart miller のMRnetシステムのほうがはるかに洗練されているのではないか。
ISOBAR Hybrid Compression-I/O Interleaving for Large-scale Parallel I/O Optimization
       Eric R. Schendel, ... Nagiza F. Samatova (North Carolina State University)

IOを減らすためにcompressしたいのだけど、それ自体にコストがかかる。
計算とcompress処理をinterleaveすることでバランスを取る。


QBox: Guaranteeing I/O Performance on Black Box Storage Systems
      Dimitris Skourtis, Shinpei Kato, Scott Brandt (University of California, Santa Cruz)

ストレージをブラックボックスとして外部から制御することで、I/O性能をある程度保証する。
Towards Efficient Live Migration of I/O Intensive Workloads: A Transparent Storage Transfer Propo
 Bogdan Nicolae (INRIA), Franck Cappello (INRIA/UIUC)

I/Oインテンシブジョブをストレージごとマイグレートする。
メモリマイグレーションのバックグラウンドでストレージのマイグレートをすすめておき、
ポストコピー的な動作に自動的に移行する。
書き込まれているブロックはプレコピーをしないでおいて、ポストコピーに任せる。

HPDC2012 セッション2 Virtualization

vSlicer: Latency-aware Virtual Machine Scheduling via Differentiated-frequency CPU Slicing
  Cong Xu (Purdue University), Sahan Gamage (Purdue University), 
  Pawan N. Rao (Purdue University), Ardalan Kangarlou (NetApp), 
  Ramana Kompella (Purdue University), Dongyan Xu (Purdue University)

VMのI/O性能を保つために、I/OインテンシブなVMをより頻繁にスケジュールする枠組みを
Xenに実装したもの。広島の窪田さんのところでスケジュール頻度を上げるとMPIの性能が
上がる、という話があったが、それをまじめにやったという話、という印象。
Singleton: System-wide Page Deduplication in Virtual Environments
  Prateek Sharma, Purushottam Kulkarni (IIT Bombay)

KVMでI/OインテンシブなVMを実行するとホストのメモリがどんどん食われる。
ページキャッシュがホストにもゲストにもあるから。

カーネルのスレッドでページを定期的にスキャンしてduplicate をマージする。
ゲストのページは、ホストのキャッシュから取り除く。
Locality-aware Dynamic VM Reconfiguration on MapReduce Clouds
  Jongse Park, Daewoo Lee, Bokyeong Kim, Jaehyuk Huh, Seungryoul Maeng (KAIST)

Hadoopでローカリティを出すために、データがあるVMに仮想コアをダイナミックに追加する
というアイディア。
面白いが、これが効くのは、元々のスケジューリングがいい加減すぎるからだろう。
Hadoopレベルでちゃんとスケジューリングしてやるべき。
Achieving Application-Centric Performance Targets via Consolidation on Multicores: Myth or Reality?
   Lydia Y. Chen Chen (IBM Research Zurich Lab), Danilo Ansaloni (University of Lugano), 
   Evgenia Smirni (College of William and Mary), Akira Yokokawa (University of Lugano), 
   Walter Binder (University of Lugano)
ディスクIOを含めた実行時間モデルを立てて、様々なアプリのVMをコンソリデートした時の
実行時間の予測ができることを示している。

VTDC12

HPDC併設ワークショップ。2012/6/19。
9:15 Invited Talk: Scaling I/O in Virtualized Multicore Servers: How much I/O in 10 years and how to get there, Angelos Bilas, FORTH-ICS, Greece
10:05 Paravirtualizing TCP, Audun Nordal, Aage Kvalnes and Dag Johansen, Department of Computer Science University of Tromsø, Norway

TCPのレイヤからVMMにオフロードするという話。TCPではackを返すタイミングがクリティカルになるが、VMではスケジュールの問題があり、性能が出にくい。のでVMM側でそのあたりをハンドルすると速くなるよ、と。
10:50 A Case for Tracking and Exploiting Memory Content Sharing in Virtualized Large-Scale Parallel Systems, Lei Xia and Peter Dinda, Northwestern University, Chicago, USA

中身が同じページがクラスタの中にあれば、migrationやcheckpointが楽になるので、計測してみた、というお話。ノード内には重複する内容はあまりないが、クラスタ内ではかなりある。staticなページがほとんどか?
11:15: Inter-rack Live Migration of Multiple Virtual Machines, Umesh Deshpande, Unmesh Kulkarni and Kartik Gopalan, Binghamton University, Binghamton, USA

ノード間の重複を利用してmigration時にdedupするという話。
11:40 Invited Talk: Integrating heterogeneous virtualized data centers through the WAN: a practical perspective Victor Souza, Ericsson Research, Sweden

OCCIとかを使ってインタークラウド、というよくあるお話。既にできているのか?
13:30 Invited Talk: Virtualization, Cloud and IaaS at CERN, Helge Meinhard, CERN, Geneva, Switzerland
14:20 Performance Evaluation of Video-on-Demand in Virtualized Environments: A look from user's perspective, Jagmohan Chauhan and Dr. Dwight Makaroff, University of Saskatchewan, Canada

VODのサーバをVMでやるとどうなるか、という話。UDPの場合、複数のサーバがひとつの物理サーバ上に
あると資源を食い合って大変な事になるようだ。そりゃそうか。TCPだと大丈夫。
14:45 Designing a Flexible and Modular Architecture for a Private Cloud: a Case Study, Valeria Cardellini and Stefano Iannucci, University of Roma, Italy


15:30 Secure Lazy Provisioning of Virtual Desktops to a Portable Storage Device, Luis Garcés-Erice and Sean Rooney, IBM Research, Zurich, Switzerland

SDカードにブートローダだけ入れておき、SDカードから起動、ハイパーバイザとVMを
ネットワーク越しにダウンロード。
SDカードにページのキャッシュを保存することで高速化。
15:55 CANCELLED - Elastic IP and Security Groups Implementation Using OpenFlow, Greg Stabler, Aaron Rosen, Kuang-Ching Hang and Sebastien Goasguen, Clemson University, Clemson, USA
15:55 Invited Talk: Computing Power on Tap: How Cloud Computing Can Change Science? "Kate Keahey, Scientist at Argonne National Laboratory, USA

Nimbusのお話。クラウドで問題になる稼働率の問題に関しては、CondorやBOINCでバックグラウンドジョブを作っておくことで解決しているそうだ。

2012年6月19日火曜日

MapReduce '12

Session 1: Environments and Extensions to the MapReduce Programing Model

C-MR: Continuously Executing MapReduce Workflows on Multi-Core Processors  (Page 1)
Nathan Backman (Brown University) 
Karthik Pattabiraman (Brown University) 
Rodrigo Fonseca (Brown University) 
Uğ ur Çetintemel (Brown University)

シングルプロセッサ、マルチコアで連続MR.
スライディングウィンドウ単位。combinerでsubwindowを処理?

パイプラインでMap/Combiner/Reducerをつなぎ、それぞれのフェイズはマルチスレッド。
SSSのノード内とアーキテクチャが似ている。
Punctuations でwindowを区切り、順序を保証している。これもSSSと同じ。

hybrid scheduling - resource availability で切り替える。メモリ残量?
memory 重視と、latency 重視。

phoenix++と比較。 横軸window sizeを大きくしても提案システムはレイテンシが
なかなか増大しない。

stream sharing。移動平均は異なるwindow sizeでやる。
複数のC-MR でMとCを共有できる。これは SSSでもできそう。

Hadoop on Line がタイマーベースなのに対して、データのタイムスタンプを使って
やっている点が異なる。
MapIterativeReduce: A Framework for Reduction-Intensive Data Processing on Azure Clouds  (Page 9)
Radu Tudoran (INRIA Rennes - Bretagne Atlantique) 
Alexandru Costan (INRIA Rennes - Bretagne Atlantique) 
Gabriel Antoniu (INRIA Rennes - Bretagne Atlantique)

Azureでiteration intensiveなMR。
TomusMapReduce を使っている?
MPI_reduceのようなtree reductionを行う?
reduction のfactor を2つのパラメータで定義
ーreduce factor, いくつのデータでreductionを終了することにするか?
ーreduction ratio 一つのツリーの足の数

A-Brain 
brain image - genetic data の相関を見る? うまくいくとはとても思えないが。

queue は Azureのを使っている。
Pilot-MapReduce: An Extensible and Flexible MapReduce Implementation for Distributed Data  (Page 17)
Pradeep Kumar Mantha (Louisiana State University)
Andre Luckow (Louisiana State University) 
Shantenu Jha (Rutgers University)

最後にshantenuが発表。
pilotジョブに対応するpilot dataという概念は非常に興味深いが、
実装がすごく大変そう。pilotという言葉も適切かどうか疑問だ。

Session 2: MapReduce Applications

Improving the Diagnosis of Mild Hypertrophic Cardiomyopathy with MapReduce  (Page 41)
Pantazis Deligiannis (Heriot-Watt University) 
Hans-Wolfgang Loidl (Heriot-Watt University) 
Evangelia Kouidi (Aristotle University of Thessaloniki)

なぜか、session 2の一件目としてやっている。
Hadoopで心臓病診断のパラメータ学習をやっている。

SNP Genotype Calling with MapReduce  (Page 49)
Simone Leo (CRS4 & University of Cagliari) 
Luca Pireddu (CRS4 & University of Cagliari) 
Gianluigi Zanetti (CRS4)

Pydoopを使っている?
Scalable Regression Tree Learning on Hadoop using OpenPlanet  (Page 57)
Wei Yin (University of Southern California) 
Yogesh Simmhan (University of Southern California) 
Viktor K. Prasanna (University of Southern California)

SmartGrid。電力使用量の予想。Regression Tree learning.
partition data space by selecting best feature that minimize variance
- d-treeのような。

Session 3: Performance and Feature Improvements of MapReduce Execution

Investigation of Data Locality and Fairness in MapReduce  (Page 25)
Zhenhua Guo (Indiana University) 
Geoffrey Fox (Indiana University) 
Mo Zhou (Indiana University)

Parallel Iterative Compilation: Using MapReduce to Speedup Machine Learning in Compilers  
Michele Tartara (Politecnico di Milano) 
Stefano Crespi Reghizzi (Politecnico di Milano)