数据挖掘实验室的内容挺全的,从数据清洗到模型评估,基本都涵盖到了。你平时做数据、建模型,估计都少不了用到它讲的这些技能。

Jupyter Notebook 的交互体验不错,写代码、跑模型、看图,全都在一个地方,效率挺高。而且像pandassklearn这些常用库,实验里都有例子,跟着做也容易上手。

数据预环节讲得比较细,像缺失值填充异常值这些操作都有实际演示。做EDA的时候,用MatplotlibSeaborn画图方便,图一看就懂。

特征工程部分也蛮实用的,比如用SelectKBest筛特征,或者用PCA降维,实际项目里常见。要是你之前特征没啥头绪,这部分可以多看看。

模型这块,从分类回归聚类,通通带了一遍。你可以直接在 Notebook 里跑随机森林SVM这些模型,也能试试不同的评估指标,比如准确率F1 分数这些,方便比对效果。

做完模型之后,用交叉验证验证一下结果也有讲,还教你怎么用k-fold方法避免过拟合。整体流程还挺完整的。

你如果想进一步搞点深度学习的内容,也可以拓展用TensorFlowPyTorch,他们也提到过。建议用Git管理一下代码,方便回退。

如果你平常用 Python 做数据,或者准备上数据挖掘相关的课,这个实验室内容还蛮值得一试的。