Hadoop 的 Windows 预配置版,用起来真的省心。原本 Hadoop 就是奔着 Linux 来的,Windows 上折腾起来说实话挺头疼的。好在这个 2.6.5 版本已经配好环境,下载完解压一下,按照readme一步步来,配置下环境变量,就能跑起来了。

HDFS 的文件系统和 MapReduce 的计算模型,都是 Hadoop 的两大核心。你只要搞明白,数据怎么存、任务怎么跑,基本上就能用得顺手了。像start-dfs.batstart-yarn.bat这种命令,直接启动服务,响应也快。

启动之后,浏览器打开localhost:50070看 HDFS 状态,:8088看任务情况,图形化界面,信息清楚明了。你还可以用hadoop fs -ls /之类的命令和文件系统打交道,操作方式和 Linux 命令行挺像的,蛮容易上手。

配置文件在conf目录,比如core-site.xmlhdfs-site.xml这些,想深入折腾的可以改一改参数。别忘了 Java 环境也得配好,JAVA_HOME一定得指到正确的位置。

如果你想练练手,跑点 MapReduce 程序合适。顺带一提,HivePig这些上层工具也可以试试,跟这个环境兼容性还不错。熟练之后,再去考虑安全认证和集群部署也不迟。

对了,Hadoop 框架解析这篇文章也可以看看,把 HDFS、MapReduce 和 Hive 讲得比较清楚。其他像MapReduce 重写示例源码下载也蛮有用,值得收藏。

如果你是 Windows 用户,又不想从零开始搭环境,那这个配好的 Hadoop 2.6.5 版本还挺适合上手的,省时省力,适合练手也适合折腾。