Apache 的apache-carbondata-1.5.2-bin-spark2.3.2-hadoop2.7.2
包,挺适合做大数据落盘存储的。兼容Spark 2.3.2
和Hadoop 2.7.2
,用老版本做迁移或者历史项目支持,刚刚好。你要结构化数据,或者玩列式存储
,这个版本能帮你省不少事。
支持压缩
、向量化查询
、还有不少性能优化,海量数据的时候,响应也快。你要是用 Spark 做 ETL,配上 CarbonData,用起来还挺顺的,代码量也不大。
我之前在一套日志系统里用它,数据量上百亿,照样跑得动。配置灵活,能结合Hive
或者直接在Spark SQL
里跑,嗯,还挺方便的。
不过要注意,版本匹配挺重要,像这个包就是专门配Spark 2.3.2 + Hadoop 2.7.2
的,换个版本容易出兼容问题,跑不起来别说我没提醒你哈。
如果你手头有老系统在跑老 Spark,又不想升级大版本,那这个包真是个不错的选择,省心。