几种数据挖掘算法的区别,真的是多人一开始搞不太清楚。分类和聚类,听着像亲戚,其实做的事不一样。前者是“你早知道你有几个篮子”,比如给客户打标签;后者是“我也不知道你们该归哪,先看相似的抱一块”。预测和回归也一样,都是预测未来数据,差别是一个关注“它属于哪类”,一个关心“它是多少”。蛮适合你在做用户行为或销售预估时用,模型选得对,结果真的能帮你省不少功夫。
WEKA 的分类与回归那篇教程讲得还挺细,从怎么喂数据到模型评估都有,适合刚上手的朋友;点这看详细。
另外逻辑回归也挺好用,尤其是你做一些二分类的问题,比如是否购买、是否流失,逻辑回归够快,解释性也不错;这篇也可以看看,讲得蛮清楚。
如果你刚好在搭数据挖掘项目,或者模型训练这块还不熟,建议你先搞懂这些概念,选对算法比一开始猛堆数据靠谱得多。