大数据架构和算法的系统梳理,内容扎实不花哨,适合想从技术底子打牢的朋友入手。

《大数据日知录:架构与算法》的结构设计比较清晰,从底层架构一路讲到实际算法实现,覆盖了存储系统分布式设计流式等关键环节。讲的是干货,没啥废话,适合边看边做点小实验。

挺适合你如果平时就对NoSQL机器学习或者什么增量计算之类感兴趣,又不太想被网课糊弄的时候看。比如搞个日志采集流架构,书里就讲到了批 vs 流的设计思路,还顺带带出了一些常见的坑,比如窗口计算出错、数据倾斜等等。

而且内容不光讲架构,还有不少并行算法的东西,比如怎么用MapReduce做聚类,或者在Spark上跑个推荐系统,思路讲得比较实在。你可以结合这几篇文章一起啃:

哦对,还有一个实用的学习笔记(.xmind 文件),你也可以一边看书一边理思路,效率更高。

如果你想从大数据的“怎么搭”和“怎么跑”两个角度都有所了解,这本书还蛮合适的。尤其是你准备转方向做数据架构师或者算法工程师的话,早点啃下来不吃亏。