数据挖掘实验室的内容挺全的,从数据清洗到模型评估,基本都涵盖到了。你平时做数据、建模型,估计都少不了用到它讲的这些技能。
Jupyter Notebook 的交互体验不错,写代码、跑模型、看图,全都在一个地方,效率挺高。而且像pandas
、sklearn
这些常用库,实验里都有例子,跟着做也容易上手。
数据预环节讲得比较细,像缺失值填充
、异常值
这些操作都有实际演示。做EDA
的时候,用Matplotlib
、Seaborn
画图方便,图一看就懂。
特征工程部分也蛮实用的,比如用SelectKBest
筛特征,或者用PCA
降维,实际项目里常见。要是你之前特征没啥头绪,这部分可以多看看。
模型这块,从分类
、回归
到聚类
,通通带了一遍。你可以直接在 Notebook 里跑随机森林
、SVM
这些模型,也能试试不同的评估指标,比如准确率
、F1 分数
这些,方便比对效果。
做完模型之后,用交叉验证
验证一下结果也有讲,还教你怎么用k-fold
方法避免过拟合。整体流程还挺完整的。
你如果想进一步搞点深度学习的内容,也可以拓展用TensorFlow
或PyTorch
,他们也提到过。建议用Git
管理一下代码,方便回退。
如果你平常用 Python 做数据,或者准备上数据挖掘相关的课,这个实验室内容还蛮值得一试的。