SparkCore内存计算引擎

Spark 的大一统框架，真是省心。内存计算的思路聪明，省去了反复写磁盘那一步，跑批速度提升一截。RDD也比较灵活，支持各种转换操作，响应快，代码也不复杂。

SparkCore的基础功能扎实，包括调度、容错、内存管理啥的都有，适合搭建底层逻辑。如果你搞实时计算，SparkStreaming也能用，接口和批那套一致，基本无缝过渡。

用惯了 Hadoop 再来上手 Spark，体验挺不一样的。MapReduce虽然稳定，但写起来太啰嗦了。Spark 内存中搞定中间数据，性能肉眼可见的上来了。像做机器学习、图计算的，MLlib和GraphX也都能直接上。

不过别太迷信性能，Spark 调优也有门槛，不同场景下要慢慢摸。比如小文件多的时候就容易拖垮 HDFS，记得合并一下。你也可以用 HBase 搭配，实时访问更灵活。

文末还有些不错的扩展资源：Spark 2.4 内存引擎、Hadoop 高级管理这些都值得一看。整体来看，Spark对搞大数据开发的你来说，值得投入时间。

如果你刚上手分布式计算，建议先搞懂RDD和SparkSQL的用法，再去玩 Streaming 或者机器学习模块会更顺手。