560_Data_Mining 的项目二挺有意思,搞的是用多个分类模型做集成判断,思路就是“多个臭皮匠顶一个诸葛亮”。嗯,它了个用Iris数据集的.r文件,你得把它改成用BreastCancer数据集,还得加点料——比如把各个模型的预测结果用多数投票法融合起来。

端到端项目的流程也比较标准:读数据、、建模、输出结果,形成个能拿得出手的作品。文档也有,可以参考Project_Twodataminingportfolio.doc来规划你的实现。

推荐你从 Iris 练起,熟悉下基本流程,再动手扩展。用到的模型可以是随机森林支持向量机KNN这些主力选手。合并结果时,记得用table()统计预测投票。

如果你打算做一个数据挖掘的作品集,这个项目蛮适合放进去——实战性强、结构清晰、还能展示你在模型集成方面的掌握。