Hadoop 平台下的海量数据分类,推荐你看看ICP:Data Mining Package。在 InterIMAGE Cloud Platform 上跑的,结合了MapReduce,对大数据做监督学习挺顺手。内置四种算法:决策树朴素贝叶斯随机森林SVM,覆盖的场景还蛮广的。嗯,重点是分布式支持做得比较稳,在大规模数据下效率还不错。如果你平时要传感器数据或者图片分类任务,这工具可以省掉你不少麻烦。