数据师的随手宝典,Big Data Analytics算是挺贴心的一个小册子。你要是经常折腾SparkHadoop这些东西,它就像一把顺手的扳手,啥时候卡住了,翻一翻,立马通了。内容不深奥,讲得比较实在,适合动手多、动脑快的你。

SparkHadoop 集群上搞大数据,最怕就是环境复杂、步骤繁琐。这本指南就比较清爽,重点都挑出来了,不废话。尤其在分布式调优上,思路清晰,挺省时间。

要是你对PythonScala感兴趣,那边也有配套资源,比如Python Spark 大数据课程,上手快,代码风格也清爽。

Scala 与 Spark 实战那篇文章更偏实战,适合想深入点的你。

做大数据不是光靠主力框架,像SciPy这些科学计算库也是好搭子,这篇文章得还蛮有用。

另外如果你比较关注实时,Storm那篇也值得看看。StormSpark组合拳,实时+批,场景更全。还有个冷门但实用的Rhadoop方案,也能玩出不一样的花样。

如果你是刚入门大数据,推荐从Spark 快速大数据入门开始。嗯,内容简明,例子接地气。你要是对大数据领域还在摸索,这几篇资源结合来看,效果会比较好。