黑色命令行里的bin
目录,几乎就是 Hadoop 操作的大本营。
Hadoop 2.6 的安装包我蛮推荐的,尤其是你想搭个本地测试环境、玩玩分布式文件系统,或者写点 MapReduce 脚本练练手,这一版够稳定,也不太重。
HDFS 的块存储方式挺有意思,简单说,就是把大文件拆小块,丢到不同机器上,还会自动备份,哪怕掉一台机器都不怕。2.6 里还引入了 Erasure Coding,空间利用率比以前高了不少。
还有 YARN,嗯,这玩意把资源管理从 MapReduce 里拆出来了,换句话说,现在 Spark、Tez 那些也能跑在 Hadoop 上了,整个生态就活起来了。
你解压hadoop-2.6-bin.rar
后,会看到bin
、conf
、lib
这些目录,基本是启动脚本、配置文件、依赖库啥的。比如你想改集群的副本数、内存配比啥的,就得去动hdfs-site.xml
这些配置。
想快速上手,可以试试hadoop fs -ls /
看看能不能列出 HDFS 根目录。MapReduce 程序也不难,写完打个包,丢给hadoop jar
去跑就是了。
如果你刚好想学大数据、或者在本地搞点实验环境,hadoop-2.6-bin.rar
还挺适合的。文件清晰,功能全,关键是够轻量,跑起来不费劲。