大数据开发的日常,绕不开的一套组合拳就是 Hadoop 生态这套东西。HDFS负责把数据拆成块扔到不同机器上,容错也不错。MapReduce就像工厂流水线,数据从头加工到尾,适合做批量统计那种。
YARN是资源调度大总管,你要跑个 Flink 任务、开个 MapReduce,它统统给你安排妥妥的。说到 Flink,它就适合搞实时,比如你做用户行为,消息一来立马算。
而Hive就是那种“我不想写 Java 代码”的福音,用HiveQL写点 SQL 就能查,适合数仓那套活。
实时数据管道方面Kafka挺香的,数据一条条像快递一样投送过来,还支持持久化、容灾,生产环境跑得也稳。
数据治理流程从 Kafka 接入开始,ETL 清洗一波扔到 Hive 或者其他库,像Greenplum、GaussDB也蛮常见,再用 Flink、Hive 跑任务,整个流程还是比较顺的。
如果你想搞清楚这些东西的底层原理或者有实战场景可以参考,下面这几个资源链接可以点进去看看,都是比较实用的资料。