数据挖掘的电子书合集,内容挺丰富,基础理论、实用方法、英文原版书都有,挺适合入门和进阶的朋友。你可以找到像分类、聚类、关联规则这些常见的数据挖掘任务,讲得还比较实在。
数据挖掘的基础任务像分类,简单说就是把东西分对类,比如预测邮件是不是垃圾邮件。还有聚类,嗯,就是自动帮你把相似的数据分到一块儿,像用户分群啥的,挺实用的。
关联规则也挺有意思,能挖掘出“买了啤酒也会买薯片”这种隐藏的小规律。哦,购物篮就是这个,做电商推荐还挺香的。还可以看看序列模式挖掘,适合事件发生的先后顺序,比如用户操作路径。
前期的数据预也别小看,像数据清洗,掉脏数据,或者数据转换,比如做个归一化
,这些都能帮你后面的跑得更顺。用min-max scaling
方法蛮常见的。
书里会讲监督学习和无监督学习,简单说,有标签的数据就用监督学习,像决策树、随机森林
。没标签的,用无监督,像K-means
、DBSCAN
。这些算法在里面都有,讲得还挺细。
英文原版书也挺推荐的,讲得系统,例子也多,跟着国际上最新的玩法走,挺能开眼的。哦,建议你边看边用真实数据练习,像UCI
公开数据集,动手多了才有感觉。
如果你对关联规则感兴趣,可以看看机器学习中的关联规则挖掘算法,讲得比较实用。还有聚类与距离度量,帮你搞清楚怎么分群更合理,挺有参考价值的。