难点的 Hadoop 大数据方案,思路挺清晰,资源也比较全面,尤其适合你刚上手或者准备梳理全局架构的时候翻一翻。像是从 Hadoop 的基础框架到调度、Hive、Spark 都有提到,链接一应俱全,点进去就能看细节。
Hadoop 的大数据架构,模块分得蛮细,包括存储、计算、调度,几乎每个环节都能找到相关文章配套着看。比如你要上手调度模块,直接点Hadoop 大数据任务调度工具调研
就能看到实际工具对比。
数据工具方面,像是Hive
和PySpark
也都有资源链接,内容还挺细的,讲的也比较实战。你要是想走 Python 路线,PySpark 那篇值得看。
还有Greenplum
结合Hadoop
的方案,适合你做混合型方案时做参考。不同系统怎么协同,这里说得还算明白。
如果你正在搭建大数据平台,又不想翻太多材料,建议直接收藏这个合集,哪个模块卡住了点开就能找到参考,挺省事。