黑色终端里的绿字跳动,是不是也挺有成就感?Hadoop 的集群环境搭起来,就是那种一步步啃下来的满足感。用VirtualBox或者VMware建几台虚拟机,装个Ubuntu或CentOS,配好Java环境,再来点静态 IP 小配置,气氛一下就到位了。
配置文件调起来其实不算复杂,core-site.xml
、hdfs-site.xml
这些基本都是填地址和端口的活儿,摸清楚逻辑就顺了。NameNode 一格式化,服务一启动,jps
一跑,看到DataNode
和ResourceManager
啥的都在线,感觉像是黑客帝国上线了一样。
Hadoop 3.3.0这个版本,优化得还挺不错的。读写快,YARN 调度也更智能,还支持Python和R,对做数据的朋友也蛮友好。安全性也提升了不少,权限控制更细,出错了也能比较快恢复。
调试的时候会踩坑,比如网络不通、JAVA_HOME
没设对、权限搞错啥的。建议一步步来,别急。顺手推荐装个Ambari,图形化管理界面蛮省事的。整体来说,搭完之后,不光能跑大数据,还能涨一波硬核技能。
如果你对分布式、大数据感兴趣,又想在虚拟机上练手,强烈推荐你试试这个方案。对了,下面这些文章也挺有,去看看: