数据的前戏之一,肯定少不了数据清洗。这份腾讯大讲堂第 59 期的资料,把数据预讲得挺清楚:填缺失值、修噪声、删孤立点,常见问题都有办法。像分箱、聚类、回归这些方法,起来也不复杂,适合刚入门或者项目里需要快速脏数据的你。
多个数据源打通时,数据集成就重要。不管是不同数据库,还是零散的 Excel 文件,统一之后,效率能翻一倍。资料里也提了不少例子,挺实用的,尤其适合做报表或 BI 工具接入。
数据变换那块,讲到了归一化和汇总,没绕弯子,直接给出怎么做。举个例子,你有几个维度数值差别挺大,先做归一化再建模,效果提升挺。
后面说的数据简化,重点在主成分(PCA)。这玩意儿常用在降维上,像可视化、多维数据压缩,全靠它。有需要的可以点下方的链接,多资料都讲得比较细,像 Python、matlab 还有 SPSS 的实现。
如果你现在正好在原始数据、准备建模或者做可视化,这份讲义真的可以看看,内容够硬,但讲得也比较接地气,挺适合实战用的。