Spark 单节点部署的超详细流程,配上 SparkBench 的编译指南,真的是一份蛮实用的参考资料。不管是新手还是搞调优的老手,看完都能少走不少弯路。文档里从装 JDK、Maven、Scala 开始讲起,到源码编译、无密 SSH、Hadoop 部署,每一步都配了命令和路径设置,照着做基本不会错。
JDK 的安装方式挺友好,Ubuntu直接apt-get
就行,环境变量也有一并教你配,别忘了用source /etc/profile
刷新一下。
Maven 和 Scala这块建议你别偷懒,还是从官网下载源码装,版本对不上会出一堆奇怪的错误。装完试试mvn -v
或者scala
,能输出信息就环境 OK 了。
Spark 的编译主要看你 Hadoop 版本和 YARN 参数,命令也列得清楚,./make-distribution.sh
那步挺关键,能打出一个你自定义名字的 tgz 包,和官网下载的没啥区别,就是你亲手编译的,后续调优用着更有底气。
顺带一提,SSH 免密登录那块也别忽略,虽然是单节点,但后面扩展多节点的时候有用。一步步生成密钥、加到authorized_keys
,配一次后面用得挺顺。
是Hadoop 的部署,下载对应版本、配置环境变量这套也挺常规的,重点是注意版本匹配,不然 Spark 启动时就容易报错。
SparkBench其实就是跑一些标准测试任务用的,看看你的 Spark 性能咋样。编译方式和前面讲 Spark 编译基本一样,有了上面的基础,这部分就顺手多了。
哦对了,如果你想深入调优,还可以看看下面这些资源,比如Spark 性能调优指南和第 08 讲-Spark 性能优化,蛮有参考价值的。