决策树的实践操作里,二路决策树配合 Spark MLlib 算是比较好上手的组合了。你只需要准备好数据,把特征字段和标签字段抽出来,后面用训练集一训练,验证集一调参,测试集一验证,就能跑出效果还不错的预测模型。
这个报告比较实用的一点是,不光讲了理论,还直接给了两种实现方式——一种是在 Ubuntu + Eclipse 下用 RunDecisionTreeBinary.scala
和 charts.scala
,另一种是在命令行里跑 Spark Shell。你可以看你自己的开发习惯来选。
像 MaxDepth
、Impurity
、MaxBins
这些参数调起来其实挺直观的,基本就是越大越复杂,越复杂越过拟合。建议你调参的时候用验证集效果说话。
还有一点蛮方便的,报告里把流程拆得细,数据预、模型训练、结果评估都列得清清楚楚,基本照着走就能复现出一个能用的模型。
如果你是刚开始用 Spark MLlib 玩分类模型,或者正好要做网页内容预测相关的项目,这篇报告挺值得参考的,顺带还能看看这些相关资源:
嗯对了,运行环境用 Scala 的话,记得版本得配好,不然运行老出错。还有 Eclipse 里别忘了把依赖的 .jar
包都加进来,不然项目跑不起来哦。