Spark 的大数据平台架构,最大的优势就是灵活,扩展性也不错。想搞大数据,尤其是批流一体的那种,Spark 真的是个挺靠谱的选择。

Spark 的大数据平台架构,最大的优势就是灵活,扩展性也不错。想搞大数据,尤其是批流一体的那种,Spark真的是个挺靠谱的选择。

初学的话,可以先看看大数据中台架构技术体系入门》,讲得比较基础,像数据采集、计算、存储这一套都覆盖了。你可以看看美团大数据平台架构实战详解》,里面挺多实操内容,比如任务调度、资源管理那块,讲得还挺细。

搞用户行为?推荐你看看《大数据平台之用户行为平台》,配合Hive 架构一起看效果更好。数据仓库这块怎么建、分层怎么搞,里面都有讲。

要搭高并发、海量数据那种平台,高流量大数据平台架构实践》就比较实用了,有多踩坑经验,尤其适合想做架构优化的。

顺带一提,如果你之前主要用的是MySQL,那这篇关于 MySQL 平台架构设计也值得看看,思路挺清晰,帮你从关系型数据库平滑过渡到大数据生态。

嗯,如果你已经在用 Spark,建议你看看《Spark 大数据技术》,像Spark SQLStructured Streaming这些模块,效率高,代码也清爽,关键是社区活跃,遇到问题也好找答案。

如果你搞的是企业级平台,能力开放平台架构》也值得一读,讲怎么把数据服务化、平台组件化,对搭系统挺有启发的。

,想用Spark搞大数据平台,你可以按需参考这些文章,搭建方式不唯一,但架构思路差不多。如果你刚起步,建议从中台架构看起;如果你已经有项目在跑,可以重点看看高流量场景和行为那几篇。