大数据方向的学习图谱,清晰直观,一张图就能理清整个路线图,蛮适合刚入门或者想系统梳理知识的你。涉及的数据、Hadoop 框架、日志这些内容都囊括了,嗯,看着不费劲,用起来也方便。
数据的入门路径不算复杂,先掌握基本的数据清洗、可视化,慢慢往机器学习靠。你可以看看这个大数据的资料,内容比较实用,案例也接地气。
Hadoop 的 HDFS+MapReduce组合,适合批量大文件,架构上有点像工厂的流水线。你平时如果要上百 G 的日志数据,这篇Hadoop Linux 大数据框架文章挺适合拿来练手。
日志这块别忽视,尤其是做后台埋点或者性能的时候关键。网页日志怎么?这篇大数据与网页日志文件讲得还不错,有一些脚本的细节可以参考。
路线图的参考版本也有,如果你想比较多个学习版本,可以看看这个大数据参考学习路线,它更像是补充材料,适合搭配主图一起看。
Level Ⅲ的师路线更偏中高级了,对数据建模、算法熟悉一点会更容易上手。如果你准备转岗或者考证书,不妨把这篇Level Ⅲ大数据师学习资料收藏一下。
Rhadoop这个组合也蛮有意思,R 语言和 Hadoop 结合后,能力更灵活,适合偏统计背景的人看。这篇Rhadoop: 解锁大数据潜能会让你对它的能力有个直观感受。
如果你刚刚入门,建议先从图谱入手,一步步按模块来。如果你已经有经验,那就挑自己不熟的地方精读一下,补齐短板。