Spark Core分布式计算入门资料

分布式计算的入门利器，Spark Core的学习资料还挺丰富的，尤其适合你这种想自己摸索的开发者。资源整理得比较齐全，涵盖从搭环境到跑任务。嗯，自己搭个小集群练练手，理解就更深了。

Apache Spark的架构其实不难，最核心的就是RDD这个东西，理解了它，数据怎么流转就一清二楚。你可以去看看这个版本：Spark-2.0.2-bin-hadoop2.6，兼容性还不错，跑在本地也没问题。

顺手推荐一个和 Spark 搭配比较多的老伙计——Hadoop。如果你还没搞过，可以试试这个：构建大数据 hadoop 分布式集群。配置稍微复杂点，但动手一次就熟了，Spark 任务调度也更顺畅。

啦，想进一步了解底层分布式机制，Spark 分布式计算框架这篇资料还蛮不错的，讲得比较细，适合你泡一杯咖啡慢慢啃。

如果你打算用 Spark 跑点实际项目，比如日志或者大文件，那记得用点内存优化的小技巧，比如合理分区、缓存中间结果，效果会好不少。

，这套资料用来自学Spark Core，性价比挺高的。你要是刚入门，建议先本地部署跑一两个简单任务，等熟悉点再往集群那边搞，效率更高。