黑色命令行里的bin目录,几乎就是 Hadoop 操作的大本营。

Hadoop 2.6 的安装包我蛮推荐的,尤其是你想搭个本地测试环境、玩玩分布式文件系统,或者写点 MapReduce 脚本练练手,这一版够稳定,也不太重。

HDFS 的块存储方式挺有意思,简单说,就是把大文件拆小块,丢到不同机器上,还会自动备份,哪怕掉一台机器都不怕。2.6 里还引入了 Erasure Coding,空间利用率比以前高了不少。

还有 YARN,嗯,这玩意把资源管理从 MapReduce 里拆出来了,换句话说,现在 Spark、Tez 那些也能跑在 Hadoop 上了,整个生态就活起来了。

你解压hadoop-2.6-bin.rar后,会看到binconflib这些目录,基本是启动脚本、配置文件、依赖库啥的。比如你想改集群的副本数、内存配比啥的,就得去动hdfs-site.xml这些配置。

想快速上手,可以试试hadoop fs -ls /看看能不能列出 HDFS 根目录。MapReduce 程序也不难,写完打个包,丢给hadoop jar去跑就是了。

如果你刚好想学大数据、或者在本地搞点实验环境,hadoop-2.6-bin.rar还挺适合的。文件清晰,功能全,关键是够轻量,跑起来不费劲。