常用数据挖掘算法的 PDF 总结,内容挺全的,从统计基础讲到机器学习模型,尤其适合刚上手的你。每个算法都配了 Python 实现,像 KNN、决策树、SVM 这些,原理说得不啰嗦,代码也够简洁。
概率的概率、期望的期望讲得还蛮透的,数学功底差点也能看明白。像贝叶斯定理的那段,我觉得挺贴地气,公式配了,关键点不会漏。
EDA 那块也挺实用的,常用图表+Seaborn 直接上手,嗯,不绕弯子。还有监督学习和非监督的区分写得蛮清晰的,新手搞不懂啥时候用啥,看看这个会有感觉。
最喜欢的是后面几章的分类算法,像KNN和朴素贝叶斯都举例子了。看完你就知道怎么写出一版文本分类或者用户行为预测。
哦对,文档里还有交叉验证、ROC、AUC 这些模型评估方法的,对调参也有些启发。代码风格偏简单明了,用的库基本都是主流的scikit-learn。
如果你正准备自己写点挖掘算法的代码,或者复习数学底子,这份 PDF 真的还蛮值一看的。