分布式计算的入门利器,Spark Core的学习资料还挺丰富的,尤其适合你这种想自己摸索的开发者。资源整理得比较齐全,涵盖从搭环境到跑任务。嗯,自己搭个小集群练练手,理解就更深了。

Apache Spark的架构其实不难,最核心的就是RDD这个东西,理解了它,数据怎么流转就一清二楚。你可以去看看这个版本:Spark-2.0.2-bin-hadoop2.6,兼容性还不错,跑在本地也没问题。

顺手推荐一个和 Spark 搭配比较多的老伙计——Hadoop。如果你还没搞过,可以试试这个:构建大数据 hadoop 分布式集群。配置稍微复杂点,但动手一次就熟了,Spark 任务调度也更顺畅。

啦,想进一步了解底层分布式机制,Spark 分布式计算框架这篇资料还蛮不错的,讲得比较细,适合你泡一杯咖啡慢慢啃。

如果你打算用 Spark 跑点实际项目,比如日志或者大文件,那记得用点内存优化的小技巧,比如合理分区、缓存中间结果,效果会好不少。

,这套资料用来自学Spark Core,性价比挺高的。你要是刚入门,建议先本地部署跑一两个简单任务,等熟悉点再往集群那边搞,效率更高。