研究生的数据库课件里,数据挖掘的部分讲得还挺细,像关联规则
、决策树
这些经典算法也有具体例子,对刚入门的朋友挺友好。
数据仓库的内容也扎实,从ETL
流程到OLAP
查询,一步步带你理解怎么搞定型业务,配合可视化做 BI 报表也不难。
讲数据集成
的时候还挺有意思,是数据清洗这块,教你怎么搞定字段不一致、格式乱七八糟的问题,用工具,效率高还不容易出错。
Deep Web的部分有点硬核,涉及非公开网页的抓取和接口对接,适合做搜索引擎、信息聚合平台这类项目的朋友。
决策树的例子蛮接地气,比如预测客户流失、信用评分这些,讲完还能自己试着跑一遍代码,理解也更牢。
如果你打算在大数据、数据或者数据库方向深耕,这套课件内容算是比较全的,理论加实战,适合用来搭建自己的知识体系。
想深入关联规则
的朋友,可以看看这篇文章:数据挖掘 - 关联规则挖掘,里面有不少实用例子和数据集。
还有一个辅助数据资源也挺好用,适合做算法验证:关联规则算法数据集。
小提醒:课程内容偏理论,要是你喜欢动手,不妨自己搭个实验环境跑一遍,像用Python
的scikit-learn
来实现决策树
,感觉会更实在。