阿里巴巴的大数据工程师必读手册,内容真挺全,干货也密集。里面不光有架构思路,还有不少实战案例,像是怎么用 Hadoop 撑起高并发场景,讲得清楚还接地气。如果你正琢磨入门或者跳槽去大厂,这本 PDF 值得先啃一遍。
手册里讲到的数据流程,比较系统,从采集到清洗再到建模,配合图示看着还挺直观。像Kafka、Flink这些组件的用法也都有涉及,适合你想摸清楚整个链路的场景。
阿里实战经验那块内容也蛮硬核,是关于去 IOE 和 Hadoop 架构的,能看出他们是怎么一步步走出来的。你可以参考一下这篇文章:探秘大数据:从阿里巴巴去 IOE 历程看 Hadoop 架构,跟手册是配套的,读完理解会更透。
另外,还有几篇关联资料也推荐你一起看,像大数据工程师技能树、2017 大数据工程师指南这些都能帮你补全知识点,查缺补漏挺方便。
要注意,虽然是 2017 年前后出的内容,但核心思想其实没过时。架构原理和思路,放现在依然有参考价值。就是有些技术版本老了点,用的时候留个心眼就行。
如果你打算系统入门、准备跳槽面试,或者单纯想看看大厂是怎么干活的,可以直接从这份手册开始。顺着它推荐的几篇相关文章一起看,效率会高多。