Spark存储机制

spark 46

793.43KB 2024-05-16

#大数据处理 #Spark #存储机制 #内存存储 #磁盘存储

内存存储（RDD）: 快速高效，但容量有限。
磁盘存储（HDFS）：容量大，但访问速度较慢。
外围存储（Cache）：介于内存和磁盘存储之间，提供平衡的性能和容量。
流水线执行: 优化数据处理流程，减少磁盘I/O。

深入解析 Spark Shuffle 机制

深入解析 Spark Shuffle 机制 Spark Shuffle 是其分布式计算框架中的重要环节，负责在不同分区间迁移数据，为后续算子提供所需数据。理解 Shuffle 机制对于优化 Spark 作业性能至关重要。 Shuffle 过程剖析 Map 阶段: 数据在各个分区进行处理，并根据目标分区进行排序和划分。数据存储: 每个 map task 将其结果写入本地磁盘或内存。 Reduce 阶段: 从各个 map task 所在节点获取相应分区的数据。数据聚合: 对获取的数据进行聚合或其他操作。 Shuffle 策略 Spark 提供多种 Shuffle 策略，以适应不同场景：

spark 14 2024-04-30

深入解析Spark的checkpoint机制

Spark的Checkpoint机制是一种关键机制，用于在应用程序故障时快速恢复其状态。它通过将RDD数据写入到安全的文件系统（如HDFS），有效避免了重新计算的成本。Checkpoint的源码可以分为四个主要部分：Checkpoint的基本使用方法、初始化过程、job生成与执行过程、以及数据恢复的流程。与普通的persist不同，Checkpoint不仅保存数据到磁盘，还清除了RDD的血缘关系记录，保证了数据的可靠性和长期保存。在实际应用中，Spark的Checkpoint适用于长时间计算或关键数据点的保存，是确保应用可靠性和性能的重要保障。

spark 10 2024-07-13

Hive 数据存储机制解析

Hive 借助 Hadoop HDFS 实现数据存储，自身不绑定特定数据格式。其存储架构主要涵盖数据库、文件、表和视图。默认情况下，Hive 支持加载文件（TextFile）以及 SequenceFile，同时兼容 RCFile 等特殊格式。用户在创建表时，通过指定列分隔符和行分隔符，确保 Hive 能够准确解析数据。

Hive 19 2024-06-22

Hadoop Block数据块存储机制

Hadoop 的Block 数据块是整个存储的核心，基本上就是每次数据读写的最小单元。每个块的大小一般是64M，这样做是为了提高效率，减少磁盘寻道时间，也能让数据管理更高效。文件在存储时会被分割成多个块，分布在不同的机器上，像磁盘的页一样，每次读写都是按块操作。如果文件小于块大小，实际占用空间是按文件大小来算的。为了保证数据的安全性，每个块还会默认复制3 次，避免单点故障导致数据丢失。这份 Hadoop 相关文档中不仅详细了DataNode和NameNode的工作原理，还有如何应对集群故障等内容。如果你对 Hadoop 系统有兴趣，了解 Block 的工作方式是挺有的。你可以从这些资料中深入了

Hadoop 0 2025-06-24

Apache Spark 2.4.3核心调度机制

Spark 2.4.3 的源码，蛮适合想搞懂大数据底层机制的朋友。spark-core_2.11是核心模块，涵盖了从 RDD 到 DAG 调度、内存管理，再到任务调度和 Executor 的方方面面。你要是有时间啃源码，这一版还挺稳当，结构清晰，逻辑也不绕。里面的DAGScheduler和TaskScheduler这两个类，建议重点看看，调度流程基本就靠它俩撑着。

spark 0 2025-06-14

Spark核心架构与调度机制详解

源码级别的 Spark 教程，推荐这本《Spark 源码》。书里讲得挺细，从 Spark 的核心架构到调度、内存管理、Shuffle、容错机制一网打尽，干货多还接地气。对 RDD 的那部分清晰，配合实际例子，看完你就明白 Spark 到底是怎么把任务拆成 Stage、怎么调度 Task、怎么搞内存分配的。调度那块我觉得是整本书的亮点，DAGScheduler和TaskScheduler的配合讲得挺透，还有怎么把一个 Job 分成多个 Stage，也有图有代码，适合搞性能优化的同学深入研究一下。如果你之前在用RDD或者DataFrame，但总觉得系统黑箱，那这本书刚好能帮你掀开盖子，看看 Spa

spark 0 2025-06-16

Hadoop HDFS分布式存储机制

Hadoop 的大数据方式还挺有意思的，尤其是它的文件系统 HDFS，设计得蛮硬核。你可以把 PB 级别的大文件丢进去，照样跑得挺稳。HDFS 有点像一套聪明的仓库系统，用 NameNode 管账，用 DataNode 搬货，配合起来效率还挺高。 HDFS 的块存储机制比较适合超大文件。像视频、日志、数据备份这类动辄几十 GB 的文件，拆成 128MB 一块分给不同的DataNode去存，读取的时候还能自动挑离你最近的节点，响应也快。数据块的多副本机制香，默认每块会复制 3 份。万一哪台机器挂了，系统还能自救补块，不容易丢数据。你要做高可用存储，这机制还挺关键的。要说能力，MapReduc

Hadoop 0 2025-06-17

HBase存储机制与应用场景解析

大规模数据的 HBase 挺有意思，是它那套基于LSM 树的存储机制，对写入性能优化得挺狠的。它不是传统的那种关系型数据库，而是走的BigTable思路，跑在HDFS上，适合场景就是真·海量数据、读写高并发的那种。像MemStore和HLog这对组合挺关键，写入时先落内存再落日志，系统挂了还能扛住。写多了之后数据会被刷新成StoreFile，这些文件之后还会合并，保证读取不会太慢。读的时候不走老一套的B+树查找，而是内存+文件的多层合并，虽然稍微麻烦点，但架不住写入真的快。是你做IoT、实时推荐、日志这些场景，用它贼合适。另外，HBase 的Region和Region Server的设计，也挺

Hbase 0 2025-06-11

深入探究 Spark 核心机制：源码解析与实践

探秘 Spark 技术内幕本书以 Spark 1.02 版本源码为基础，深入剖析 Spark 解决的关键问题和解决方案。通过精心设计的小实验，逐步揭示每一步背后的处理逻辑，助您深刻理解 Spark 的实现机制。核心内容作业提交与执行 (第 3-5 章): 详细解析 Spark Core 中作业的提交与执行过程，深入分析容错处理机制。 Spark Lib 库探索 (第 6-9 章): 初步探索 Spark Lib 库的功能和使用方法，为进一步掌握 Spark 技术奠定基础。掌握 Spark 技术通过对源码的分析和实践，您将快速掌握 Spark 技术，并能够应用于实际项目中。

spark 21 2024-04-29