© 1999-2048 dssz.net 粤ICP备11031372号
[Hadoop] 一种基于MapReduce高效K-means并行算法
说明: 针对K-means算法对初值选取的依赖,收敛速度慢,聚类精度低,以及对海量数据的处理存在内存瓶颈的问题,提出一种基于MapReduce的高效K-means并行算法.该算法在MapReduce框架基础上,结合K选择排序算法进行并行采样,提高采样效率;采用基于样本预处理策略获取初始中心点;使用权值替换策略对迭代中心进行更新;此外,通过调整Hadoop集群,对算法的运行效率作出进一步提升.实验结果表明,该算法不仅具有良好的收敛性、准确率、加速比,算法性能也得到进一步改善.<qq_28339273> 上传 | 大小:967kb