内存计算的 Spark 引擎,大数据是真的快。
用的是Scala写的,操作分布式数据集就像本地集合那样简单直观。相比Hadoop MapReduce,它支持数据保存在内存中,省去反复读写磁盘的烦恼,跑迭代算法(比如机器学习)合适。
对于做分布式计算的你来说,Spark 算是比较成熟的方案了。不只是性能好,生态也挺全,支持SQL 查询、图计算、流式,你想要的场景基本都能覆盖。
安装包是spark-3.4.3-bin-hadoop3.tgz
,打包好了的,拿来就能用。你用./bin/spark-shell
一跑,立刻进 REPL 环境,测试点数据分分钟出结果。
注意哦,虽然 Spark 自带了本地模式,但如果你要上集群,还是得配置下 YARN 或者 Kubernetes,资源管理靠它们才靠谱。
如果你正好在搞批、训练模型,或者你觉得 Hadoop 太笨重,不妨试试 Spark,轻量又高效,用起来还挺爽的。