Hadoop从初级到资深的35个关键问题

Hadoop 的入门到精通，其实没你想得那么玄。HDFS 的主从架构，还有MapReduce 的并行计算机制，都算是 Hadoop 的“基本功”。你得先搞清楚这些，后面部署集群、挑版本啥的，才不会踩坑。

像HDFS，主节点是Namenode，它就像管家，负责记账；数据都扔在Datanode上，自动备份，掉一块盘也不慌。读写也快，PB 级数据压根不怕。

MapReduce就更像调度大脑了。JobTracker接活儿，TaskTracker干活儿，分工明确，大数据就靠这套组合拳。

版本选型别盲选。Cloudera比较火，毕竟有商用支持。Apache 原版也行，纯开源，灵活。Yahoo 版？别找了，早整合回 Apache 了。

部署方面建议你先玩玩伪分布式模式，一台机器模拟集群，练手挺合适。真要上生产环境，再折腾集群模式，像 SSH 免密登录这类细节别忽略，不然启动都报错。

Hadoop 的目录结构也得熟。bin是命令启动区，conf是配置心脏区。改动前最好备份，出问题好回滚。

想跑程序，用hadoop jar xxx.jar，别忘了指定主类。Shell 命令也得会，像hdfs dfs -ls、-put、-rm，和 Linux 操作基本一毛一样，挺顺手。