数据挖掘的复习提纲资源,内容真挺全,属于那种看一遍就能捋顺知识结构的。概念部分讲得清楚,像数据挖掘
和知识发现
的区别这类容易混淆的点,解释得挺接地气,不会一堆术语砸脸。后面的算法部分,比如ID3
、Apriori
,还有聚类的几个模型,也都讲得蛮细,像老司机带你过一遍重点。
自动找规律的数据挖掘,其实就是机器帮你琢磨数据里的门道。搞清楚它和知识发现的区别重要,别以为是一个东西。前者偏自动化,后者更像让人读得懂的知识输出。
假设检验部分别跳过,零假设、备择假设这对老搭档总是考。像Mann-Whitney U 检验
,对比组间差异常用,做业务也离不开它。
ID3 决策树算是入门算法里比较好理解的,信息熵、信息增益这些概念你一旦理解了,搭建一棵树其实不难。别忘了它还有升级版C5.0
,复杂场景更靠谱。
挖关联规则就得靠Apriori
,虽然是老牌算法,但还挺好用。理解它的频繁项集生成和剪枝逻辑,之后遇到多层次的关联问题就不会慌。
分类模型里头,CART
和CHAID
也实用,一个搞回归,一个分层次,选择的时候根据数据结构来就行。多个模型组合对比,效果说不定会更好。
讲到聚类,K-Means
比较简单直觉,Two-Step
适合大数据集,Kohonen 网络
更像是神经网络的应用,稍微进阶一点。三种方法覆盖面挺广,各有优势。
Clementine
工具也别忽略,功能全、交互也顺手,建模效率高,像Apriori
、BP 神经网络
这些它都支持,做项目时省事。
如果你正在准备数据挖掘的考试,或者要在项目中用这些算法,强烈建议把这份提纲过一遍,尤其是常见算法的使用场景和参数设置,熟了之后就不会慌。