Hadoop 环境的搭建,说实话,前期准备真不少,但搞清楚了,其实也就那回事。这份指南挺全的,从虚拟机创建到 Linux 命令、再到 Zookeeper 和网络编程,基本涵盖了大数据环境里你能遇到的坑。比如虚拟机那块,讲了两种方法,一种是用 iso 镜像一步步装系统,适合想全流程体验下的;另一种就是直接复制安装文件,图快的话就选它,改个 MAC 和 IP 就能用。
Linux 操作那块也没跳过,vi 编辑器、网络配置、文件权限这些常用命令都提了,蛮适合刚接触的朋友。有点经验的也能翻出来查命令啥的,挺实用。
接下来是关键的Shell 脚本部分,这个真的是搭集群的好帮手。不搞点自动化脚本,你那几台节点搞着搞着就头大了,变量、循环这些用熟了,你会发现配置集群其实没那么吓人。
ZooKeeper作为集群里的“协调者”,作用不小。文里把它的安装、配置都列得挺细的,尤其是集群模式下怎么同步信息这块,新手看着照做基本也没啥大问题。
还有一段提到了网络编程,虽然不一定都得写 Socket,但了解下TCP/IP协议、基本端口概念,对排查 Hadoop 网络问题还是有的。比如某个端口不通,就是你防火墙没关或者 IP 写错了。
如果你打算自己在本地搭个 Hadoop 试验环境,或者在公司搞内部测试环境,这篇指南真的是个不错的入门材料,按部就班来就行了。想了解更多,也可以参考下面这几篇:
- 构建 Hadoop 环境及使用 HDFS Shell 命令
- Zookeeper 开发环境搭建教程
- Linux 环境下搭建 Hadoop 集群详细步骤
- CentOS7 搭建 Hadoop2.7.7 集群及 Hive、Zookeeper、HBase、Kylin 环境
- hadoop2 安装和常用 shell 命令
- Ubuntu 环境下的 Hadoop 部署
如果你不确定是用 CentOS 还是 Ubuntu,可以两个都试下,熟悉了之后,哪个顺手用哪个。