数据挖掘模型的效率,多时候就卡在数据清理这一步。数据仓库的质量直接决定你后面能不能顺利挖掘出有价值的模式。这篇 PDF 讲得挺到位的,是关于几种常见的数据冲突怎么,思路清晰,方法也实用。
数据清理嘛,说白了就是把乱七八糟的数据给理顺了。像缺失值、格式不一致、冲突值这些,都得提前搞定。文章提到的一些方法,比如优先级规则和外部参考对照,在实际项目里还蛮常用的,尤其是做金融和医疗数据的时候,容不得半点马虎。
你要是碰到那种多个数据源合并,值打架的情况,比如“性别”字段一个写“男”、一个写“M”,这种就头疼。文里推荐的标准化映射和冲突优先级设定,用起来还挺顺手。配合工具像OpenRefine、PandasCSV,也都好上手。
顺带一提,文章还提到准确度对数据清理结果的影响。哦对了,如果你对这块比较感兴趣,文章底下还列了几个相关文章,比如决策树算法的准确度评估,都可以点进去瞧瞧,拓展一下思路。
如果你最近在折腾数据仓库或者准备做数据挖掘模型,这篇 PDF 可以提前看看,别等建模时才发现数据烂得一塌糊涂,那时候再清理就晚了。