Vertica 的并行机制讲得还挺清楚的,尤其是大数据量下怎么做分区、怎么走执行计划,看完确实有点收获。如果你对数据仓库的性能优化有点好奇,或者你也在搞大表查询,建议你翻翻这篇《Vertica 的那些事.pdf》,内容不长,但干货挺多的。

并行计算的部分讲得蛮实在的,不是只讲概念,作者还用了一些实际的 SQL 例子,比如怎么设计分布键、怎么避免数据倾斜。像你在做多节点分布式查询的时候,参考一下这些思路会比较有。

顺带推荐几个相关的资料,Greenplum的那篇也不错,思路挺像的。还有篇关于多线程并行计算的文章,如果你平时也写点 Python 或者 Java 多线程代码,读读也不亏。对了,虚拟存储的那篇虽然不是讲 Vertica,但讲的是数据仓库背后的存储策略,有助于你理解底层逻辑。

哦对了,如果你还在用 SQL Server,文末有篇 SQL Server 2008 R2 并行数据仓库 的文章,也挺值得一看。虽然版本旧了点,但有些概念现在还用得上。

如果你平时搞数据仓库开发,或者在调性能调得头大,不妨下载下来看看,思路清晰、例子接地气。别忘了,顺手存个 PDF 放在你的docs目录下,哪天翻出来说不定就用上了。