Spark 2.4.0 和 Hadoop 2.7 的组合,算是大数据圈里比较经典的一对了。
Apache Spark 的弹性分布式数据集(RDD)机制,适合搞大规模并行计算。加上内存计算,响应也快,代码也清晰,调试起来没那么痛苦。
2.4.0 版本的改进也挺多,比如 SQL 支持增强了,窗口函数
、JSON 函数
这些实用功能都有,写查询的时候顺手多了。DataFrame和Dataset也优化了,类型推断更聪明,开发体验更流畅。
搭配Hadoop 2.7的话,可以无缝接入HDFS
,还支持YARN
调度,部署在集群上效率还不错。不管你是要批、做Spark SQL
,还是跑个Spark Streaming
流,都能 hold 住。
机器学习这块,MLlib了不少算法,跑个回归或分类都不难;搞图的朋友可以看看GraphX,支持常见图算法,性能也挺稳。
如果你是 Python 或 R 用户,用PySpark
或者SparkR
,也能方便接入,官方支持还行,不容易踩坑。
,spark-2.4.0-bin-hadoop2.7
是个挺靠谱的资源。适合需要搭建开发环境,又不想自己折腾依赖配置的朋友。如果你想快速上手玩大数据,可以直接解压跑起来,省事不少。