Spark 2.3.0 的版本更新挺有意思,尤其是这款spark-2.3.0-bin-hadoop2-without-hive,它最大的特点就是不带 Hive 的 JAR 包。你可以在不依赖 Hive 的情况下,使用SparkHive 上的数据,挺适合有独立 Hive 集群的同学。如果你是那种 Spark 能独立数据,又不想完全依赖 Hive 功能的开发者,这个版本就蛮合适的。

其实,Spark的性能提升蛮,支持批、交互式查询和实时流。就算是没有 Hive JAR 包,你依旧可以通过配置文件来接入 Hive 的元数据。只要在配置文件里设置好spark.sql.hive.metastore.uris,连接 Hive 的数据源就不成问题了。

总结来说,这个版本让你在不依赖 Hive 功能的情况下,发挥 Spark 计算的优势,操作起来灵活。如果你有相关需求,还是蛮推荐试试的。