数据算法Hadoop Spark大数据实战技巧

大数据开发里的经典书之一，Mahmoud Parsian写的《数据算法：Hadoop Spark 大数据技巧》还挺值得一看。讲得比较接地气，重点是多实战技巧，尤其适合你在用Spark或Hadoop做数据的时候参考。

函数式思想贯穿整个流程，像用MapReduce搭配RDD来日志数据，效率高，代码也不绕。平时写点数据清洗脚本、搞并行，用里面那套思路就顺手。

还有一点蛮实用的，书里不少例子是围绕Scala讲的。你要是熟点Java，迁移过来也不难。比如说，做词频统计时用flatMap配合reduceByKey，逻辑简洁，响应也快。

对了，如果你还在摸索怎么把Hadoop和Spark结合起来用，强烈推荐你顺带看看这几篇文章，有不少补充：

如果你经常跟批量数据打交道，或者想快速掌握大数据的套路，这书真可以放书架上常翻。