黑色封面的《Big Data Principles and Best Practices of Scalable Real-Time Data Systems》挺适合想系统搞懂大数据架构的你。作者 Nathan Marz 不啰嗦,直接上干货,讲了怎么搭建可扩展、实时、还能扛得住海量数据冲击的系统。
从数据模型设计到批和实时怎么分层、怎么配合,讲得蛮清楚。比如,批层
主要历史数据,用来跑复杂;而速度层
就用来搞实时响应,两者搭配使用,嗯,效率杠杠的。
你要是做过流,像Storm、Flink这些框架应该不陌生。书里举了不少例子,讲了这些技术在真实场景下怎么落地,还顺带给了些不错的数据一致性
和分布式存储
建议,挺实用。
值得一提的是,作者强调数据模型别只考虑理论上的结构优美,得实打实考虑后期的性能
、可扩展性
和维护成本
。不然,上线一堆 bug 你哭都来不及。
如果你刚好在搭建实时数据平台,或者想提升现有系统的弹性和速度,这本书挺值得翻一翻。顺便也推荐几篇不错的相关文章:
如果你想深入了解不同的实时方案,可以顺着这些文章继续挖。