大数据开发里的经典书之一,Mahmoud Parsian写的《数据算法:Hadoop Spark 大数据技巧》还挺值得一看。讲得比较接地气,重点是多实战技巧,尤其适合你在用Spark或Hadoop做数据的时候参考。
函数式思想贯穿整个流程,像用MapReduce搭配RDD来日志数据,效率高,代码也不绕。平时写点数据清洗脚本、搞并行,用里面那套思路就顺手。
还有一点蛮实用的,书里不少例子是围绕Scala讲的。你要是熟点Java,迁移过来也不难。比如说,做词频统计时用flatMap
配合reduceByKey
,逻辑简洁,响应也快。
对了,如果你还在摸索怎么把Hadoop和Spark结合起来用,强烈推荐你顺带看看这几篇文章,有不少补充:
- Hadoop Spark 大数据算法实战技巧
- Spark 与 Hadoop 大数据开发指南
- 大数据技术进阶 Hadoop 与 Spark 作业探索
- Apache Spark 大数据入门
- Scala、Hadoop、Spark 全新教程大数据开发实战指南
如果你经常跟批量数据打交道,或者想快速掌握大数据的套路,这书真可以放书架上常翻。