Hadoop入门实践指南

分布式大数据的敲门砖，Hadoop的入门文档还挺实用的。对新手来说，理解它的核心架构不难，几个关键模块捋顺了，用起来也就顺了。嗯，像是NameNode和DataNode的关系，就像调度员和搬运工，谁干啥一目了然。

集群部署其实没你想的复杂，尤其是伪分布式。一个机器上跑完整流程，练手刚刚好。你可以看看这篇大数据技术指南 Hadoop 伪分布式部署指南，步骤还挺清楚。

还有个比较推荐的是构建大数据 hadoop 分布式集群这篇，实战多一点，从格式化 HDFS 到跑 MapReduce 任务，能帮你理清不少思路。

想再往深了走？那可以翻翻Hadoop 权威指南分布式大数据解析，虽然内容多，但按需查就行，别硬啃。

如果你对分布式计算感兴趣，顺手也可以看看大数据与 Hadoop 分布式计算框架，概念和框架讲得比较透，扩展一下视野。

对了，别忘了试试命令行工具，像hdfs dfs -ls /、start-dfs.sh这种，多敲几遍就熟了。路径配置别乱写，core-site.xml里改错一个参数都让你找一下午 bug。