分布式大数据的“老炮儿”非HADOOP 权威指南莫属,资料全、透,连边边角角的概念都能给你捋明白。
HDFS 的机制讲得挺细,比如副本策略、NameNode 的职责、如何故障恢复,通俗易懂,不烧脑。看完后你能对分布式存储的底层逻辑有个清晰的概念。
YARN 资源调度这块儿也不含糊,蛮适合你搞清楚计算资源是怎么在集群里“抢座位”的。搭配上iServer 集成指南,实操也不难。
想系统学?那得看看《Hadoop:分布式系统基石》这篇,逻辑顺、语言也挺顺手,读起来不卡壳。
你如果是刚接触Hadoop,可以先翻HDFS Comics那篇,图解方式讲原理,轻松入门不枯燥。
建议:边看边动手,比如建个伪分布式环境,目录结构用/usr/local/hadoop
,路径清晰。调试时注意hdfs-site.xml
的副本数配置,默认是 3,单节点建议改成 1。