Spark工作经验概述,详细记录了在实际项目中应用Spark的情况和收获。
Spark个人总结文档
相关推荐
Kafka个人学习总结(一)
Kafka是一款开源分布式流处理平台,能够高效处理大规模实时数据。其核心特性包括高吞吐量、持久化、分区与复制、多消费者模型。1. 高吞吐量:Kafka处理每秒数十万条消息,通过优化I/O操作,实现接近内存的速度。2. 持久化:消息持久化到硬盘,设置保留策略控制数据清理。3. 分区与复制:数据分为多个分区,并在不同节点间复制,增强容错性和可扩展性。4. 多消费者模型:支持多个消费者组,同一分区内消息只被组内一个消费者消费。5. 生产者与消费者:生产者生成和发送消息,消费者接收和处理消息,通过主题进行交互。6. API支持:提供Java和Scala客户端库,支持其他语言的第三方库。7. Zooke
kafka
20
2024-07-12
前端技术总结文档
数据结构学习资料
项目实践
源代码参考
算法与数据结构
11
2024-07-12
Matlab应用总结文档
详细介绍了Matlab的各项关键知识,包括矩阵操作、逻辑运算、控制语句的应用,以及符号运算和数值计算等内容。
Matlab
8
2024-07-27
MySQL详细总结文档
这份资料内容丰富,欢迎大家积极下载。
MySQL
15
2024-07-18
MongoDB 文档查询总结
文档查询语法:- db.collection_name.find(query, projection).pretty():格式化显示- db.collection_name.findOne(query, projection):只显示一个文档
参数说明:- query:可选,指定查询条件- projection:可选,使用投影操作符指定返回的键。查询时返回文档中所有键值,只需省略该参数即可(默认省略)。
MongoDB
10
2024-04-29
Spark调优实践总结
Spark 调优的干货总结,经验丰富的同事写的,内容比较全面,适合有一定基础的你参考参考。
Join 优化是个老话题了,用得多出问题也多。文档里提到的广播 Join挺实用的,尤其是大表小表配对时,直接把小表广播到各个节点,省下了不少网络 IO。这招在 MapReduce 和 Hive 里也用过,效果还挺。
数据倾斜的问题也有不少细节。比如空值集中,建议加点随机值打散下分布;再比如count(distinct)太重,可以先 Group By;还有倾斜 Key,单独拎出来,再合回去。这几招组合拳下来,性能能提一截。
小文件太多会把任务分得碎,启动开销大得离谱。可以用coalesce来减少分区数,别
spark
0
2025-06-15
MongoDB文档删除操作总结
MongoDB 的文档删除操作总结得还挺全面的,语法也比较简单,适合刚上手或者想查漏补缺的你。
文档的删除操作这块,用的是db.collection.remove()这个方法。语法看起来有点多,其实常用的就那几个参数。比如你想删一个年龄是 20 的文档,可以写:
db.info.remove({age: 20}, {justOne: true})
想直接删掉所有info集合里的文档也行,就一行:
db.info.remove()
而且,justOne设成true,就只删一个,默认是false,查到几个就删几个,挺直接的。writeConcern是用来设定报错级别的,平时用得不多,知道有就行。
MongoDB
0
2025-06-13
Spark 2.3.0 API 文档
Spark 2.3.0 API 文档提供了 Java、Scala、Python 和 R 中的高级 API,以及支持通用执行图的优化引擎。还包括一系列高级工具,如 Spark SQL(用于 SQL 和结构化数据处理)、MLlib(用于机器学习)、GraphX(用于图处理)和 Spark Streaming。
spark
10
2024-04-30
Spark 2.3.1离线文档
Spark 2.3.1 的离线文档,挺适合用来查 API、翻模块逻辑的。压缩包里是完整的官方文档,放到本地随时查,尤其网络不稳或者在服务器环境下,贼方便。RDD是 Spark 最基础的东西,说白了就是可分布存储的只读数据集,操作全靠transformation和action。写个 Map 或者 Filter,再用collect()就能跑出结果。DataFrame和Dataset也蛮实用,尤其你用 Scala 或者 Java,类型安全、性能优化都做得不错。和Hive、Parquet这些打交道时,Spark SQL也派得上用场,能写 SQL 查,还能链式用 API 搞事。流部分靠Spark Str
spark
0
2025-06-13