Hadoop 的入门到精通,其实没你想得那么玄。HDFS 的主从架构,还有MapReduce 的并行计算机制,都算是 Hadoop 的“基本功”。你得先搞清楚这些,后面部署集群、挑版本啥的,才不会踩坑。
像HDFS,主节点是Namenode
,它就像管家,负责记账;数据都扔在Datanode
上,自动备份,掉一块盘也不慌。读写也快,PB 级数据压根不怕。
MapReduce就更像调度大脑了。JobTracker
接活儿,TaskTracker
干活儿,分工明确,大数据就靠这套组合拳。
版本选型别盲选。Cloudera比较火,毕竟有商用支持。Apache 原版也行,纯开源,灵活。Yahoo 版?别找了,早整合回 Apache 了。
部署方面建议你先玩玩伪分布式模式,一台机器模拟集群,练手挺合适。真要上生产环境,再折腾集群模式,像 SSH 免密登录这类细节别忽略,不然启动都报错。
Hadoop 的目录结构也得熟。bin
是命令启动区,conf
是配置心脏区。改动前最好备份,出问题好回滚。
想跑程序,用hadoop jar xxx.jar
,别忘了指定主类。Shell 命令也得会,像hdfs dfs -ls
、-put
、-rm
,和 Linux 操作基本一毛一样,挺顺手。
如果你正准备啃 Hadoop,不如先看看这 35 问,都是我踩坑总结出来的干货,能让你少走不少弯路。