Spark 的大规模数据能力挺让人放心的,尤其是在做机器学习那类需要反复迭代的任务上,效率比传统的 MapReduce 要高。你要是搞过大数据那一套,应该知道中间结果频繁写 HDFS 有多烦,Spark 就省了这一步,直接内存里搞定,响应也快,体验还不错。

Apache Spark 的并行能力蛮强的,适合搞点分布式计算的活儿。像你在跑个大数据算法、建个机器学习模型,Spark 都能帮上忙。而且它不止能跑批,流、图计算也行,通用性还挺高。

资源包叫BaiduNetdiskDownload.zip,里面有不少实用的资料,包括案例数据、分布式框架,还有个.xmind思维导图,方便你理清知识脉络。懒得搜资料?直接下就完事了。

建议你先看看Spark:大数据计算的利刃这篇,讲得还挺清楚的。要想搞清楚算法和分布式怎么配合用,大数据与机器学习算法那篇也别错过。

如果你最近刚好在研究分布式框架或者机器学习的部署,不妨把这个包收了,节省不少摸索的时间。嗯,还有,不用翻墙就能下,挺方便的。