Windows 上的 Hadoop 2.7.7 下载包,是大数据入门玩家的老朋友了。稳定、兼容、还能跑在本地,适合你一边敲代码一边理解底层逻辑。
Hadoop 的 HDFS 和 MapReduce配合得还挺默契的。前者负责数据存,分块存、多机备份,容错性不错;后者就干脆了,拆任务、跑并发,效率高。如果你搞不懂大数据是怎么“分布式”的,装一套来跑一跑最直观。
安装 Hadoop 2.7.7前,你得先把JDK 1.8+
装好,JAVA_HOME
也要配上。之后解压到比如C:\hadoop
,设置HADOOP_HOME
和PATH
,这些都是跑通命令行的关键。
Windows 上跑 Hadoop,基本都是“伪分布式模式”。你得用WinUtils
,这个工具自己找资源下,Apache 不,记得找安全点的来源。要不然多命令执行不了。
核心配置文件有三个:core-site.xml
、hdfs-site.xml
、yarn-site.xml
,主要是告诉系统 NameNode 在哪、DataNode 在哪、资源怎么调度的。
MapReduce程序可以用 Java 写,也能用 Python 搞个Streaming
方案。提交任务后,它自动拆 map 和 reduce 阶段,响应也快。你要真跑一下,理解起来快。
除了 Hadoop 本体,生态里的Hive
、Pig
、Spark
、HBase
、Oozie
,都是后续可以一块研究的方向。一起搭配用,效率翻倍。
如果你想在 Windows 上搞懂大数据咋、调度、分布式通信,Hadoop 2.7.7 还是蛮适合拿来练手的。别忘了定期看看《HDFS、MapReduce 与 HBase 实践》这样的资料,配着文档学习更快。