Hadoop-2.2.0 的源码包,挺适合想深入摸清 Hadoop 底层逻辑的你。里面不仅有所有 Java 源码,还有配置文件、构建脚本,直接丢进 Eclipse 就能边跑边调。
源码里几个模块都挺关键,hadoop-common管通用工具和文件系统接口,hadoop-hdfs就是分布式文件系统的核心,hadoop-mapreduce帮你跑分布式计算任务,hadoop-yarn负责资源调度和管理。
平时要自定义组件、调试 NameNode 或者写个 MapReduce 任务,都能在这里找到线索。比如改个core-site.xml
,你就能玩出不同的集群配置。lib目录的第三方库也别忽略,少了它们,多功能跑不起来。
如果你想搞明白 HDFS 怎么保证数据安全、YARN 怎么调度任务,或者调个大数据任务出错的 bug,那就下载下来折腾一番,准没错。