Local 模式的 Spark,配置简单到你会怀疑是不是少了啥。嗯,真的不需要搞 Hadoop,不用折腾 Yarn,解压完直接跑就行,挺适合刚接触 Spark 的你。平时开发调试,也省不少事,用bin/spark-shell
就能开干。
Standalone 模式稍微复杂点,但也是官方亲儿子那种自带的资源调度方式。核心三个角色:Client、Master、Worker。有点像分工明确的小团队,谁干啥都说得清楚。
Driver 的运行位置呢,也挺灵活。用spark-shell
提 Job,Driver 会跑在 Master 上;但你用spark-submit
提交,或者在 IDE 里运行,比如设个new SparkConf().setMaster("spark://master:7077")
,那 Driver 就在本地 Client 端跑,操作感挺顺的。
想深入玩?下面这些资源你可以顺着点开瞅瞅,比如 Winutils 那事、源码下载啥的都在,搭环境少踩坑,效率高不少。