大数据开发的老朋友——Hadoop的权威指南出到第四版了,Tom White 亲笔,内容厚实。英文原版看着有点费劲?其实还行,技术类的书主要就看你熟不熟那些概念。

Hadoop 的大名估计你早听过了,用来海量数据那是一把好手。HDFSMapReduce是它的老搭档,配合得贼溜。像大文件切块、多副本分发,全都自动搞定,容错也强。你丢一个节点,它自己补,稳得。

YARN这个调度器挺灵活,接管资源分配那是老本行,支持的不止 MapReduce,连 Spark、Flink 这些新家伙也带得动。还有像HivePig这些组件,算是给不想写 MapReduce 的人开了外挂,用熟了 SQL 就能跑大数据任务,爽。

你要是玩 NoSQL,那HBase值得研究一下,跟传统数据库不一样,列式存储、海量数据、随查随取,适合实时业务场景。别忘了Zookeeper,这个分布式协调器,可别小瞧,配合集群跑才更稳。

还有个重点是Spark,虽然是 Hadoop 体系外的选手,但现在都混一起用了,内存计算快得飞起,支持批、流,蛮全能。书里也有提到它和 Hadoop 怎么配合使用,挺实用。

安全性方面,Kerberos认证、权限管理也都覆盖了;优化、容错、部署细节也写得清楚,像你想调调blockSize或者replication,书上都有具体建议。

如果你打算入门大数据、或者在做大数据相关开发,这本书真的挺值得啃一啃。不懂英文也别担心,查查单词、理理逻辑,慢慢看就明白了。反正都是干货,翻几页就能学到不少。