数据挖掘这块,推荐一份内容比较全的资源。预、EDA、建模评估这几步讲得挺细,连标准化和异常值都有具体方法,像 Z-score、IQR 什么的都提到了。你要是经常缺失值、分类预测、聚类啥的,看这个准没错。
数据预的部分讲得挺实用。像缺失值
填补有均值、中位数、众数几种方法,还举了Z-score
识别异常值的例子。你平时数据不干净?看这个就对了。
探索性数据(EDA)这块内容也挺全,统计、可视化都有提。像箱线图
、散点图
这类经典图都有提到,还说到了购物篮那种关联规则
,用Apriori
或者FP-Growth
来挖关系。
建模讲了分类、聚类、回归都包括,例子像决策树
、K-means
、逻辑回归
啥的。嗯,如果你在做风控、推荐或者客户分群,这几类模型都挺常用的。
模型评估那段也不能跳,什么准确率
、召回率
、F1 分数
都有说,还补了交叉验证
的用法,挺适合拿去实战的。
资源里还有几个好用的小工具,像 PageViewsMR、DataCleaner,专门做数据清洗
,响应也快,界面也友好,适合不想折腾代码的你。
如果你刚上手数据挖掘
,又想一站搞定预、EDA、建模这些步骤,可以点进去看看相关资料,工具+教程都有了,能省不少时间。