微软的并行数据仓库方案挺值得一试,尤其是你想玩点“大”的。基于 SQL Server 的大规模并行(MPP)架构,性能那叫一个顶,查询、导入、扩展都稳。关键是,不挑硬件,伸缩性也不错,用起来灵活多了。
里面的微软 Big-Data-and-PDW-Solution 并行数据仓库方案.pdf
和微软大数据库方案手册.pdf
,讲得蛮清楚,场景也接地气,适合正在部署或调优数据仓库的你。尤其是对中大型企业,那种数据量动不动就上 TB 的,用这个方案响应也快。
MPP 架构说白了就是多个计算节点并行求,像多线程一样,各自干各自的活儿,再合并结果。对那种大表 JOIN、大批量场景,效率提升挺的。
建议你也看看其他几个配套资料,像Hive和Spark那几篇,搭配着看思路更开。如果你还没用过PySpark
,也可以顺手点进去看看,说不定哪天就能用上。
哦对了,如果你打算做横向扩展,记得关注一下磁盘 IO 和数据倾斜问题,别一上来就猛堆节点,那样不一定有效率,反而资源浪费。
如果你正准备搞大数据平台建设,可以从这个方案入手,SQL Server 熟的话,上手也快。