大数据开发里的经典书之一,Mahmoud Parsian写的《数据算法:Hadoop Spark 大数据技巧》还挺值得一看。讲得比较接地气,重点是多实战技巧,尤其适合你在用SparkHadoop做数据的时候参考。

函数式思想贯穿整个流程,像用MapReduce搭配RDD来日志数据,效率高,代码也不绕。平时写点数据清洗脚本、搞并行,用里面那套思路就顺手。

还有一点蛮实用的,书里不少例子是围绕Scala讲的。你要是熟点Java,迁移过来也不难。比如说,做词频统计时用flatMap配合reduceByKey,逻辑简洁,响应也快。

对了,如果你还在摸索怎么把HadoopSpark结合起来用,强烈推荐你顺带看看这几篇文章,有不少补充:

如果你经常跟批量数据打交道,或者想快速掌握大数据的套路,这书真可以放书架上常翻。