大数据方向的入门资料蛮多,但整理得像样的,还真不多见。《大数据学习笔记文档》就挺值得一看,内容比较全,技术也比较实在,关键是看起来不枯燥。Linux、Kafka、Python、Hadoop、Scala 这些都涵盖了,适合刚入门或者转岗的你参考一下。
Linux的部分偏实操,比如shell
脚本、用户权限设置,都是你平时搭环境绕不开的。嗯,建议你先搞清楚vim
和chmod
这些,入门效率高不少。
Kafka讲得还行,主要围绕Producer
和Consumer
这块来展开,配合topic
和partition
讲清楚了数据是怎么流动的。你要是搞实时,这段内容建议多看几遍。
Python这块比较亲民,像pandas
、numpy
、sklearn
都有提到,重点放在数据和这类常见操作上。如果你已经熟练用DataFrame
做,那可以快速过;不熟就老老实实练。
Hadoop挺基础的,从HDFS
和MapReduce
开始,讲到Hive
、Spark
等周边生态。嗯,挺适合用来理一理整体框架,有助于理解整个大数据平台是怎么搭起来的。
Scala部分也没落下,讲得不多,但配合Spark
还是能理解点门道的。是并发编程、函数式写法这些,初看有点绕,但用熟了,写分布式任务那是真爽。
你要是想快速补齐大数据的基本功,可以先把这份笔记过一遍,再结合以下这些资源动手练起来:
- Kafka 0.10.2.1 Scala 2.10 版
- Flink Kafka 连接器(1.13.2 Scala 2.12)
- Scala Linux 安装包
- Flink 读取 Kafka 的Scala 源码
- Spark Streaming Kafka 兼容包 2.4.5(Scala 2.11)
- kafka-python 2.0.2客户端库
- Scala 2.11.6 Linux开发资源
- Redhat Linux 下Kafka集群搭建
- Python与 Hadoop 集成
- Linux 安装 Apache Kafka 步骤
如果你刚入大数据这行,建议从 Linux 和 Python 学起;如果你已经上手做项目了,不妨直接冲 Kafka 和 Spark 的实战部分。