Hadoop 的 Windows 预配置版,用起来真的省心。原本 Hadoop 就是奔着 Linux 来的,Windows 上折腾起来说实话挺头疼的。好在这个 2.6.5 版本已经配好环境,下载完解压一下,按照readme
一步步来,配置下环境变量,就能跑起来了。
HDFS 的文件系统和 MapReduce 的计算模型,都是 Hadoop 的两大核心。你只要搞明白,数据怎么存、任务怎么跑,基本上就能用得顺手了。像start-dfs.bat
、start-yarn.bat
这种命令,直接启动服务,响应也快。
启动之后,浏览器打开localhost:50070
看 HDFS 状态,:8088
看任务情况,图形化界面,信息清楚明了。你还可以用hadoop fs -ls /
之类的命令和文件系统打交道,操作方式和 Linux 命令行挺像的,蛮容易上手。
配置文件在conf
目录,比如core-site.xml
和hdfs-site.xml
这些,想深入折腾的可以改一改参数。别忘了 Java 环境也得配好,JAVA_HOME
一定得指到正确的位置。
如果你想练练手,跑点 MapReduce 程序合适。顺带一提,Hive和Pig这些上层工具也可以试试,跟这个环境兼容性还不错。熟练之后,再去考虑安全认证和集群部署也不迟。
对了,Hadoop 框架解析这篇文章也可以看看,把 HDFS、MapReduce 和 Hive 讲得比较清楚。其他像MapReduce 重写示例、源码下载也蛮有用,值得收藏。
如果你是 Windows 用户,又不想从零开始搭环境,那这个配好的 Hadoop 2.6.5 版本还挺适合上手的,省时省力,适合练手也适合折腾。