数据仓库的底层架构蛮清晰,围绕ETL主题域时间维度展开,逻辑一目了然。尤其是多维那块,搭配OLAP功能,像切片、钻取这些操作,真的挺实用,报表展示也方便。

数据挖掘的技术方法比较全面,分类聚类关联规则都提到了,常见算法也有,像K-meansApriori这类。工具上,RPython确实是主力,写起来灵活,生态也好。

数据预部分还不错,像归一化降维这些基本操作都讲到了。要提醒一下,别直接把脏数据扔给算法跑,先清洗下,效果会好多。

如果你是做用户画像市场趋势预测的,数据仓库配合数据挖掘真的香。一个存得稳,一个挖得深,结合起来用,洞察力直接拉满。

还有,想更深入了解关联规则的,可以看看这个扩展阅读,讲得还挺系统。