MapReduce 下的 K-means 聚类改进方法,思路蛮实用的,尤其是你在搞大数据挖掘的时候。先用层次聚类搞定初始簇数,这一步挺机灵的,省得你自己蒙着头试 K 值;再结合 MapReduce 分布式跑,跑得快还稳定,单机测试表现也不错。如果你经常成山的数据,又烦 K-means 初始值不稳的问题,可以看看这个方案,蛮值得一试的。