内存计算的 Spark,挺适合你大数据里那些反复迭代的任务。spark-2.4.3-bin-hadoop2.7.tgz
是个比较稳定的版本,拿来跑机器学习、搞点数据挖掘都挺顺手。
用 Hadoop 跑 MapReduce?嗯,能跑,但一大堆中间结果写 HDFS 贼慢。Spark就不一样了,数据能留在内存里,少了磁盘读写,响应也快,性能直接上来。
像做推荐系统、聚类这些,都蛮依赖迭代的,Spark 就派上用场了。你要是刚上手,推荐先跑跑它自带的 MLlib 示例,基本不用你手写太多代码。
注意文件是.tgz
格式,下载后记得用tar -zxvf
解压。环境搭配Hadoop 2.7
比较稳,别整错版本了。还有,不想配太复杂的话,本地模式跑起来也挺方便的。
如果你想深入一点,这几篇文章可以看看,美团和TalkingData的案例都挺接地气的。尤其是这篇讲 Spark 的大数据计算,讲得还蛮清楚。