Spark MLlib二路决策树实验报告

决策树的实践操作里，二路决策树配合 Spark MLlib 算是比较好上手的组合了。你只需要准备好数据，把特征字段和标签字段抽出来，后面用训练集一训练，验证集一调参，测试集一验证，就能跑出效果还不错的预测模型。

这个报告比较实用的一点是，不光讲了理论，还直接给了两种实现方式——一种是在 Ubuntu + Eclipse 下用 RunDecisionTreeBinary.scala 和 charts.scala，另一种是在命令行里跑 Spark Shell。你可以看你自己的开发习惯来选。

像 MaxDepth、Impurity、MaxBins 这些参数调起来其实挺直观的，基本就是越大越复杂，越复杂越过拟合。建议你调参的时候用验证集效果说话。

还有一点蛮方便的，报告里把流程拆得细，数据预、模型训练、结果评估都列得清清楚楚，基本照着走就能复现出一个能用的模型。

如果你是刚开始用 Spark MLlib 玩分类模型，或者正好要做网页内容预测相关的项目，这篇报告挺值得参考的，顺带还能看看这些相关资源：

嗯对了，运行环境用 Scala 的话，记得版本得配好，不然运行老出错。还有 Eclipse 里别忘了把依赖的 .jar 包都加进来，不然项目跑不起来哦。