2011年7月5日火曜日

An Efficient Hierarchical Clustering Method for Large Datasets with Map-Reduce

Tianyang Sun, Chengchun Shu, Feng Li, Haiyan Yu, and Lili Ma, Yitong Fang
1.2T 1million user 6時間
テキストの分類。前処理とクラスタリングにそれぞれMRを使用。
クラスタリングは3回のMRで。
なんか肝心な部分をmasterノードでon memoryでやっている。
あと、ある程度近いものを有無を言わさずペアにしているようだが、厳密には
これではまずいはず。

0 件のコメント:

コメントを投稿