大数据开发的进阶路上,总会遇到一些又杂又深的技术坑。《大数据开发宝典进阶版》这份资源,内容整理得挺系统,理论+实践都有,拿来做学习资料或者复习笔记都合适。
分布式计算框架的部分讲得还不错,从原理到实际用法,比如怎么搭个计算集群,怎么做资源调度这些,都有比较清晰的例子。
数据存储和这块,重点讲了像HDFS这样的分布式存储,还有Hadoop的一些常见用法。比如你要在本地搭个小型环境测试,书里就有配置流程,照着走快就能跑起来。
另外数据挖掘和机器学习的内容也覆盖了,虽然不是深,但作为入门或者梳理知识挺合适。像常见的分类算法、聚类都有提到,还搭配了实践场景。
如果你现在刚好在做数据平台的开发,又想搞清楚分布式的底层机制,或者打算在面试前系统复盘一波知识点,这份资料可以说是蛮实用的。
另外推荐几个不错的扩展资料,有空可以看看:
- 基于大数据机器学习的分布式计算框架
- 论文研究网格数据挖掘与分布式计算应用
- HDFS: 大数据分布式存储核心揭秘
- 大数据与机器学习算法
- 构建大数据 hadoop 分布式集群
- 星环大数据平台 HDFS 分布式存储系统
如果你平时要大量数据、写分布式任务,或者做点算法测试训练,蛮推荐下载来看看。用不完也可以当备查工具书放着。