Spark 的大一统框架,真是省心。内存计算的思路聪明,省去了反复写磁盘那一步,跑批速度提升一截。RDD也比较灵活,支持各种转换操作,响应快,代码也不复杂。

SparkCore的基础功能扎实,包括调度、容错、内存管理啥的都有,适合搭建底层逻辑。如果你搞实时计算,SparkStreaming也能用,接口和批那套一致,基本无缝过渡。

用惯了 Hadoop 再来上手 Spark,体验挺不一样的。MapReduce虽然稳定,但写起来太啰嗦了。Spark 内存中搞定中间数据,性能肉眼可见的上来了。像做机器学习、图计算的,MLlibGraphX也都能直接上。

不过别太迷信性能,Spark 调优也有门槛,不同场景下要慢慢摸。比如小文件多的时候就容易拖垮 HDFS,记得合并一下。你也可以用 HBase 搭配,实时访问更灵活。

文末还有些不错的扩展资源:Spark 2.4 内存引擎Hadoop 高级管理这些都值得一看。整体来看,Spark对搞大数据开发的你来说,值得投入时间。

如果你刚上手分布式计算,建议先搞懂RDDSparkSQL的用法,再去玩 Streaming 或者机器学习模块会更顺手。