哈工大的《大数据实验一》还是蛮有料的,尤其是对刚接触Hadoop的你来说,挺锻炼人。实验主要搞的是Hadoop 环境配置,比起跑程序,光是配置就够你折腾一阵。得动手配Java 环境、改Hadoop 配置文件,像core-site.xmlhdfs-site.xml这些,少不了。网络通信、分布式配置、Linux 命令?一个都绕不开。

整套流程走完,你就能体会什么叫“搭环境比写代码还难”。但也别慌,网上有不少现成的参考,比如Hadoop 集群环境配置脚本,跟着操作,少走弯路。

配好环境,接下来就是玩HDFSMapReduce了。前者管数据存储,后者管计算,配合得还挺默契。比如你上传个大文件,HDFS 自动切块存多台机器;跑个 MapReduce 程序,把每块数据并行,结果再归总。你说是不是挺像平时刷 Map 时那种“分而治之”?

实验后半段会接触到像HivePig这种更高层的工具。你写 SQL-like 语句就能跑,蛮适合不太想敲 Java 的同学。而且这些工具在真实项目里用得也多,练熟了,后面上手 Spark 都轻松不少。

如果你也觉得搭环境太头大,可以参考Hadoop 集群配置文件设置这类文章,节省不少时间。建议多看几篇,不同人踩过的坑不一样,能避就避。

哦对了,的实验报告别忽视,写的时候多记录踩过的坑和思路,对以后真的有用。如果你正在准备类似的实验,这套资源可以帮你省不少事。