Optimizing Shuffle Performance in Spark
- [http://www.cs.berkeley.edu/~kubitron/courses/cs262a-F13/projects/reports/project16_report.pdf]
- Spark では相対的にMapとReduceが高速化されるので、shuffleがボトルネックになる。
- shffuleの対策として、mapの出力を圧縮する方法があり、他のDBでうまく言っているカラム単位で圧縮するのを試してみたがうまく行かなかった。
- ファイルの数がMapper 数 x Reducer数になっているのが問題と考え、同じコア上で動作するMapperの出力は同じファイルにするようにしたら速くなった。
論文ではなくてレポート?