Spark SQL 的基于成本的优化器框架,是一个提升查询性能的好工具。简单来说,它通过精确的统计和估算,帮你做出一些聪明的优化决策。比如,选择合适的连接算法(像是 broadcast hash join 还是 shuffled hash join),调整连接顺序,甚至决定哪个端作为构建端。你能通过它的框架计算每个操作的基数和输出大小,进而做出更合适的选择。经过测试,这个优化器框架在执行 TPC-DS 查询时,性能表现相当不错。,这个优化框架在性能上有了质的飞跃。如果你正好在用 Spark SQL,也许可以考虑试试这个优化器,看看能否让你的查询性能再提升一些。