Apache 的apache-carbondata-1.5.2-bin-spark2.3.2-hadoop2.7.2包,挺适合做大数据落盘存储的。兼容Spark 2.3.2Hadoop 2.7.2,用老版本做迁移或者历史项目支持,刚刚好。你要结构化数据,或者玩列式存储,这个版本能帮你省不少事。

支持压缩向量化查询、还有不少性能优化,海量数据的时候,响应也快。你要是用 Spark 做 ETL,配上 CarbonData,用起来还挺顺的,代码量也不大。

我之前在一套日志系统里用它,数据量上百亿,照样跑得动。配置灵活,能结合Hive或者直接在Spark SQL里跑,嗯,还挺方便的。

不过要注意,版本匹配挺重要,像这个包就是专门配Spark 2.3.2 + Hadoop 2.7.2的,换个版本容易出兼容问题,跑不起来别说我没提醒你哈。

如果你手头有老系统在跑老 Spark,又不想升级大版本,那这个包真是个不错的选择,省心。