这本书是目前国内唯一的中文资源,对学习Kettle的朋友和研究ETL的专家都有很高的参考价值。
Spark理论详解
相关推荐
Spark 理论与 PySpark 应用
Spark 理论与 PySpark 应用
Spark 生态系统
Spark Core:Spark 的核心组件,提供分布式任务调度、内存管理和容错机制。
Spark SQL:用于处理结构化数据的模块,支持 SQL 查询和 DataFrame API。
Spark Streaming:实时流数据处理框架,支持高吞吐量、容错的流处理。
Hadoop 与流数据处理
Hadoop 为 Spark 提供分布式存储和计算基础架构,使其能够高效处理大规模数据集,包括流数据。流数据处理的特点:
实时性:数据持续生成,需要实时处理和分析。
持续性:数据流永不停止,需要系统持续运行。
高吞吐量:需要处理大量高
spark
19
2024-05-15
Spark RDD 算子详解
RDD 分区调整:- repartition()- coalesce()聚合函数:- reduce()- aggregate()关联函数:- join()- cogroup()
spark
19
2024-04-30
Spark Shell启动详解
详细介绍了Spark的shell启动命令及其具体细节,帮助读者深入了解。
spark
13
2024-09-13
详解Spark SQL实验
将详细介绍Spark SQL的实验内容,帮助读者快速下载所需资料。
spark
14
2024-08-13
非线性优化理论详解及Matlab实例
详细介绍非线性优化理论,并提供了多个Matlab实例,帮助读者深入理解。
Matlab
16
2024-08-02
天线理论分析与设计详解(原创文章)
Balanis的《天线理论:分析与设计》第三版书籍相关MATLAB代码已被提供,可以从资源下载。
Matlab
12
2024-09-28
Spark Streaming 2.3.0 中文详解
全面解析 Spark Streaming 2.3.0 API、知识点和案例,助您轻松掌握流处理技术。
spark
17
2024-05-12
Spark调优策略详解
深入探讨了如何优化Spark性能,涵盖了性能监控、数据倾斜处理、shuffle调优等关键内容。讨论了合理配置worker与executor、内存分配优化、CPU使用率监控及网络带宽管理等调优要点,并通过实际案例展示了企业级大数据平台的调优方法。
spark
14
2024-09-13
Spark编译与部署详解
Spark及其生态圈简介
Spark编译与部署(上)--基础环境搭建
Spark编译与部署(下)--Spark编译安装
Spark编译与部署(中)--Hadoop编译安装
Spark编程模型(上)--概念及SparkShell实战
Spark编程模型(下)--IDEA搭建及实战
Spark运行架构
Hive(上)--Hive介绍及部署
Hive(下)--Hive实战
SparkSQL(上)--SparkSQL简介
SparkSQL(下)--Spark实战应用
SparkSQL(中)--深入了解运行计划及调优
SparkStreaming(上)--SparkStreaming原理介绍
Spar
spark
15
2024-07-13