数据挖掘这块,推荐一份内容比较全的资源。预、EDA、建模评估这几步讲得挺细,连标准化和异常值都有具体方法,像 Z-score、IQR 什么的都提到了。你要是经常缺失值、分类预测、聚类啥的,看这个准没错。

数据预的部分讲得挺实用。像缺失值填补有均值、中位数、众数几种方法,还举了Z-score识别异常值的例子。你平时数据不干净?看这个就对了。

探索性数据(EDA)这块内容也挺全,统计、可视化都有提。像箱线图散点图这类经典图都有提到,还说到了购物篮那种关联规则,用Apriori或者FP-Growth来挖关系。

建模讲了分类、聚类、回归都包括,例子像决策树K-means逻辑回归啥的。嗯,如果你在做风控、推荐或者客户分群,这几类模型都挺常用的。

模型评估那段也不能跳,什么准确率召回率F1 分数都有说,还补了交叉验证的用法,挺适合拿去实战的。

资源里还有几个好用的小工具,像 PageViewsMRDataCleaner,专门做数据清洗,响应也快,界面也友好,适合不想折腾代码的你。

如果你刚上手数据挖掘,又想一站搞定预、EDA、建模这些步骤,可以点进去看看相关资料,工具+教程都有了,能省不少时间。