2011年6月10日金曜日

MapReduce 2011

Otus: Resource Attribution in Data-Intensive Clusters CMU
   monitoring / analyzing MR jobs
  ジョブなどのCPU/Memory/Disk利用状況を分割して表示。
  Mochi という Hadoopのvisualizerがあるようだ。
  
  Hadoop はJMX で情報を出している。これと/procからの情報などを
  ノード毎のCollectorに集めて、それを中央のAggregatorにあつめて
  Storage Backendにいれる。 
  - RRDToolを使っている。OpenTSDBに移行するよてい。
   メタデータはrrdのパス名にエンコード。うーん、無理がある。

  - JVM reuse は使い回すが、すぐに使われない場合があって結構危険
  - 失敗した Hadoop streaming job がクリーンナップされなくて
    仮想メモリを食いつぶすことがある。
Phoenix++: Modular MapReduce for Shared-Memory Systems
shared memory machine でon memory  でMR.を行うPhoenix シリーズ,
1,2ときて最新版が++ 。OpenMPの代用としてつかうようなもの。
  オリジナルの問題点
   - hash が固定長
   - combiner がmapの後にしか走らない
   -  
    Metis というのもある。

   modular storage 
    KV の性質はいろいろある。 *:*, *:K, 1:1。それぞれにたいしてコンテナを容易
 
   C++ テンプレートとinline 展開を用いてループオーバヘッドを削減。
Static Type Checking of Hadoop MapReduce Programs
   Hadoopでの型違い問題をstaticに解決。たしかにHadoopで実行時にエラーがでるのは
  非常にむかつくので有意義かも。
INRIA のBlobSeer のKeynote
  Google のGreg Malewicz が  Beyond MapReduceというすごく面白そうな
  Keynoteをする予定だったのだけど残念ながらキャンセル。かわりに
  INRIAの名前失念さんがBlobSeerに関するおはなしを。
   HDFSをBlobSeer上に実装、というところだけがつながりか?

   ANLとかといっしょにやってる? ARPEGE Call ってなんだ?

   AzureBrain? BlobSeer on Azure を使ってBrain とneuroを一緒に解析
 
Tall and Skinny QR Factoriazations in MapReduce (from sandia)
 500,000,000 by 100 matrix 423.3 GB HDFS 
 極端に細い行列のQR Factorization.

 カスケードしたいくつかの行列積に分割している。
Rapid Parallel Genome Index using MapReduce.
  DNA sequencingのための
  suffix arrayの生成をHadoopで。 - BWT (Burrows Wheeler Transform)
  EC2でやってるな。
  cloudburst, crossbow, Quake, Contrail 
Full-Text Indexing for Optimizing Selection Operations inLarge-Scale Data Analytics
Twitterのはなし。 Lucene をつかってindexして、Hadoop で探す。
  Jimmy Lin (Qatar であった) Twitter
Exploring MapReduce Efficiency with Highly-Distributed Data
  分散環境でHadoop。データの配置、通信をおこすタイミングをshuffleにしたりmapの
  前にしたりして、実験。ごくごく当たり前の結果。やらんでもわかるだろ。
  という感じも。
Parallelizing large-scale data processing applications with data skew: a case study in product-offer matching
MSインターンでやった内容だそうだ。
  Data skew とは?
  Product Offer Matching - 商品の名寄せ。
   機械学習をつかっている。training をする。