Apache Spark 3.4.3分布式计算引擎

内存计算的 Spark 引擎，大数据是真的快。

用的是Scala写的，操作分布式数据集就像本地集合那样简单直观。相比Hadoop MapReduce，它支持数据保存在内存中，省去反复读写磁盘的烦恼，跑迭代算法（比如机器学习）合适。

对于做分布式计算的你来说，Spark 算是比较成熟的方案了。不只是性能好，生态也挺全，支持SQL 查询、图计算、流式，你想要的场景基本都能覆盖。

安装包是spark-3.4.3-bin-hadoop3.tgz，打包好了的，拿来就能用。你用./bin/spark-shell一跑，立刻进 REPL 环境，测试点数据分分钟出结果。

注意哦，虽然 Spark 自带了本地模式，但如果你要上集群，还是得配置下 YARN 或者 Kubernetes，资源管理靠它们才靠谱。

如果你正好在搞批、训练模型，或者你觉得 Hadoop 太笨重，不妨试试 Spark，轻量又高效，用起来还挺爽的。