研究生的数据库课件里,数据挖掘的部分讲得还挺细,像关联规则决策树这些经典算法也有具体例子,对刚入门的朋友挺友好。

数据仓库的内容也扎实,从ETL流程到OLAP查询,一步步带你理解怎么搞定型业务,配合可视化做 BI 报表也不难。

数据集成的时候还挺有意思,是数据清洗这块,教你怎么搞定字段不一致、格式乱七八糟的问题,用工具,效率高还不容易出错。

Deep Web的部分有点硬核,涉及非公开网页的抓取和接口对接,适合做搜索引擎、信息聚合平台这类项目的朋友。

决策树的例子蛮接地气,比如预测客户流失、信用评分这些,讲完还能自己试着跑一遍代码,理解也更牢。

如果你打算在大数据、数据或者数据库方向深耕,这套课件内容算是比较全的,理论加实战,适合用来搭建自己的知识体系。

想深入关联规则的朋友,可以看看这篇文章:数据挖掘 - 关联规则挖掘,里面有不少实用例子和数据集。

还有一个辅助数据资源也挺好用,适合做算法验证:关联规则算法数据集

小提醒:课程内容偏理论,要是你喜欢动手,不妨自己搭个实验环境跑一遍,像用Pythonscikit-learn来实现决策树,感觉会更实在。