数据仓库设计里的清理策略挺关键的,尤其是搞大数据开发的你一定懂,数据不是丢了,而是‘升华’了。比如转存、归档或者转层,都是常用套路。这篇文章讲得挺细,思路清晰,对搞数据架构设计的有参考价值。
报表跟数据仓库怎么搭配?这里有一张结构图(图 2-26)其实讲得蛮直观。不是所有都得往仓库里塞,有时候放在操作层效率还更高。
还有一点值得一提:文中结合了一个实用的场景——用深度学习从 MRI 里识别阿尔茨海默氏病。听起来前沿对吧,但其实逻辑还蛮清晰。数据进仓库、清理、转层,再结合模型训练,这流程标准,适合你想试试数据驱动开发方式的场景。
要是你最近在研究医学图像识别,或者搞数据仓库、报表架构的优化,下面这些资源我觉得都值得看看:
如果你在折腾Hive、Oracle或者Hadoop环境的报表设计,也可以顺手看看下面这些实战内容,对你熟悉数据流转结构会有。