数据挖掘任务的分类挺实用的,型任务让你能快速看懂数据趋势,预测型则更像是拿水晶球未来。平时做数据或者建模的你,应该会经常遇到这两个方向,搞清楚区别,后面的算法选型才不容易踩坑。
型的任务就是偏探索那挂的,比如看看用户年龄分布、产品销售走势,用的是统计图、聚类这些工具,嗯,能帮你快速摸清楚数据的底细。
预测型任务就不一样了,更有挑战性,它需要你用历史数据去训练模型,做出判断,比如用Scikit-learn
建个分类模型来预测客户流失,用RandomForestClassifier
就蛮合适。
推荐几个相关的资源,还不错:预测型数据实战:Scikit-learn 数据挖掘建模,代码清晰,思路也实用;还有用RapidMiner做可视化,界面拖拖拉拉就能建模,适合不想写太多代码的场景。
顺手提下,如果你对中医方向感兴趣,中医证型关联规则挖掘也挺有意思的,用的是 Python 搞的,可以参考下如何做规则发现。
想做个结构清晰的数仓?可以看看星型雪花型结构实例,讲得比较直白,初学者也能看懂。
,先把型和预测型的套路搞明白,再慢慢结合场景去套工具。如果你刚入门,可以从Scikit-learn
开始练手,轻量好上手,资料也多。