大数据技术的全景梳理书还真不多,这本《大数据技术原理与应用》就挺值得一看。内容从概念、存储到应用,讲得比较系统,适合刚入门或者想捋清思路的人。HadoopSpark这些常见技术也都有提到,嗯,框架清晰,讲得不啰嗦。

清楚的大数据架构图,配合具体案例,比如怎么日志数据,怎么做用户行为,看着不会发懵。HDFS的也比较贴地气,讲了它怎么拆分大文件、怎么保证不丢数据,理解起来没啥门槛。

数据部分也讲得还不错,MapReduce流程清晰,还穿插了一些小技巧,像是怎么优化任务、怎么分区调度,这些对实际项目挺有用。再加上有配套的练习题,你要是动手做一做,会更有感觉。

如果你之前对大数据只是听说过但没系统学过,这本书可以帮你打个底子;如果你已经上手写代码了,回头看看它的技术脉络整理,也挺有收获。建议先看完主线内容,再顺着文末推荐的相关文章挨个点进去,像是这篇Spark 大数据技术,和主线内容配合起来,更有味儿。