Apache Spark分布式计算框架

大数据的老朋友里，Apache Spark真的蛮有存在感的。用 Java、Scala、Python 都能整，跑批速度比老 MapReduce 快不少，响应也快，调试也没那么闹心。适合你分布式数据、实时流式啥的。

来自伯克利 AMP 实验室的产物，Spark 一开始就是冲着 MapReduce 那点低效率来的。核心组件像Spark SQL、Spark Streaming都挺实用，写数据逻辑还挺顺手的。写个map、filter，几行代码搞定一个复杂任务。

另外它跟 Hadoop 生态融合得还不错，HDFS、Hive都能搭，老项目迁移成本也不高。部署的话，YARN、Kubernetes都支持，弹性伸缩这块也还行，拿来搞机器学习或图计算也没问题。

如果你之前用 MapReduce 觉得开发慢、维护难，可以考虑用 Spark 试试。顺带推荐几篇相关的资料，看着比较有：

如果你数据量挺大，又想要开发体验好点的计算框架，Spark值得上手试一试。