基于 Hadoop 的并行共享决策树挖掘算法挺适合搞大数据挖掘的你去试试看。它不是简单搬个决策树上 Hadoop,而是玩了点花样:一开始用传统属性表结构做并行,但 IO 多到飞起,后面直接优化成混合结构,性能飙升,尤其是 HPSDT 这个版本,数据一大它就越香。嗯,写代码那块没太复杂,理解清楚结构切换就行。