Hadoop 的入门挺适合刚接触分布式的小伙伴。没有太多复杂术语,讲得比较清楚,思路也顺。像你要是对MapReduce
、HDFS
这种概念还比较模糊,这篇内容能帮你快速串起来。
Hadoop 的结构思路蛮清晰的,分布式存储+离线计算这两块是重点。文章里说的还挺实用,比如怎么用伪分布式部署跑个测试,响应也快,适合边学边调试。
讲到分布式系统的地方,你可以顺手看看《Hadoop:分布式系统基石》,搭配着读更有感觉,理解也更深入一些。
要是真打算自己搭个环境,那《Hadoop 伪分布式部署指南》还挺实用。嗯,配置那一块儿别跳,多坑都藏在core-site.xml
这种文件里。
如果你更关注实际使用,比如想看看在项目里怎么离线数据,那可以点进去瞧瞧《Hadoop MapReduce 大数据离线》,讲得还挺接地气。
,刚接触 Hadoop 的话,这篇还蛮友好。不压你,不绕弯子,适合一边学一边上手。如果你想更深入,也可以看看《构建大数据 hadoop 分布式集群》和Greenplum 的大数据方案,挺有启发的。