数据挖掘 quiz 的答案内容挺实用的,尤其适合刚入门或者准备面试的你。混淆矩阵、ROC 曲线这些关键词,在模型评估这块经常遇到。像 False Negative 和 False Positive 的区别,多人其实刚开始都容易搞混。作者讲得还蛮清楚,配合例子能让你更快上手。

ROC 曲线的部分也比较全,从基础的概念到 AUC 的理解都讲到了,甚至还提了 Weka 和 Matlab 两个常用工具。如果你是图形党,可以顺着链接看几个绘图教程,效果直观。

另外一些题比如 ETL、聚类 vs 分类这些也是常考点,内容不难但容易忽略。比如 ETL 不是工具,多人会误会。再比如聚类是没标签的、分类才是有监督的,这些小细节你平时看得越多越熟练。

,离群点、异常值、数据清洗这些内容写得也不错。有些地方你觉得啰嗦了点,但整体看下来,确实挺系统的。如果你最近正好在复习数据挖掘,不妨把这些题过一遍,查漏补缺。