Spark调优技巧

在做 Spark 调优时，直接用join操作会导致数据大规模 shuffle，需要大量的 I/O 操作，性能不太友好。是大数据时，shuffle 会拖慢任务执行速度。不过，使用broadcast操作就能这个问题。它会把小表广播到每台执行节点上，避免了 shuffle，关联操作直接在本地完成，效率提升。这样，不仅节省了 I/O 开销，任务并发度也提高了，整体性能大大增强。你可以尝试一下，如果你有小表关联的场景，broadcast是一个不错的选择。