Apache Kudu详解

Apache Kudu 1.15.0版本下载

在Hadoop生态系统中，现存的数据输入和分析解决方案有限且效率不高。Apache Kudu基于列的数据存储技术，提供了解决快速输入和快速分析之间平衡的方法。

Hadoop 12 2024-07-31

Apache Kudu简介及其在数据分析中的应用

Apache Kudu是Apache Hadoop生态系统中的一个开源列存储引擎，与Hadoop环境中的大多数数据处理框架兼容。它提供了完整的存储解决方案，支持快速数据分析和查询。Apache Kudu项目最初源自于Cloudera的内部开发，为大数据分析提供高效的数据存储和访问能力。

spark 13 2024-07-13

深入解析 Kudu 架构

Kudu 采用了独特的存储架构，融合了行式存储和列式存储的优势。其核心组件包括： Tablet：数据存储的基本单元，类似于 Bigtable 中的 Tablet 或 HBase 中的 Region。每个 Tablet 包含多个 RowSet，并按主键范围进行分区。 RowSet：Tablet 中数据的组织单位，分为内存中的 MemRowSet 和磁盘上的 DiskRowSet。MemRowSet 负责处理写入操作，而 DiskRowSet 则负责存储历史数据。 Tablet Server：负责管理 Tablet，处理数据读写请求，并与 Master Server 进行通信。 Master S

Hadoop 10 2024-04-30

Kudu-1.7.0+cdh5.15.1

Kudu-1.7.0+cdh5.15.1，大数据存储，支持Spark，可与Cloudera Hadoop Distribution 5.15.1配合使用。

spark 14 2024-04-29

Kudu：快速分析高速数据

Kudu入门：快速分析高速数据

算法与数据结构 18 2024-05-01

Kudu Java 实战: 操控数据指南

Kudu Java 实战: 操控数据指南这份指南将带您领略如何使用 Kudu Java 客户端进行数据库基础操作，包括：连接 Kudu 集群: 建立与 Kudu 集群的安全连接，为数据操作打下基础。创建 Kudu 表: 定义表结构，包含列名、数据类型和主键等信息，构建数据存储的框架。插入数据: 将数据写入 Kudu 表中，支持单条插入和批量插入操作。查询数据: 使用灵活的查询语句检索 Kudu 表中的数据，满足各种数据分析需求。更新数据: 修改 Kudu 表中已有的数据，保持数据实时更新。删除数据: 从 Kudu 表中移除不需要的数据，确保数据有效性和一致性

Hadoop 13 2024-04-30

Apache Spark源码详解小册

Apache Spark源码详解小册知识点总览####一、开场白深入探讨Apache Spark的代码实现，特别是其核心组件——弹性分布式数据集（RDD）。作为Spark技术的学习者和热衷者，作者通过长期学习积累了丰富的笔记和心得，现在通过本书与广大读者分享这些宝贵资源。 ####二、RDD概述RDD作为Spark的基本数据抽象，是一个只读的、可分区的数据集。RDD具备良好的容错性和并行处理能力，使其成为构建高效分布式应用的理想选择。 #####详细特性1. 分区列表(A list of partitions) -每个RDD可以包含多个分区，这是其基本组成部分。 -每个分区代表数据集的一个子集

spark 9 2024-08-09

Apache Spark内存管理详解

Spark 的内存机制算是大数据圈里比较常被拿来研究的一块，搞明白了，性能调优起来真能省不少心。这篇《Apache Spark 内存管理详解》讲得还挺细，不光是讲了Executor的堆内堆外怎么分、内存怎么动态调整，还聊到了各种 GC、内存溢出怎么，挺接地气的，带着场景来讲。像是你想知道--executor-memory该怎么配，或者storage memory跟execution memory到底啥时候该多点，文章里都有，而且语气不是那种照本宣科，看的时候不容易犯困。还有个点我挺喜欢，它不是只讲配置，还告诉你背后的逻辑，比如为什么要堆外内存、什么时候适合开压缩、Kryo这种序列化工具为啥能省

spark 0 2025-06-13

Apache Pulsar 2.6.0功能详解

云原生消息流平台的老玩家们应该对 Apache Pulsar 不陌生。2.6.0 这个版本上新了不少实用特性，比如多租户支持、跨区域复制、还有函数式计算，听着高大上，其实用起来还挺接地气的。对分布式系统、数据流有需求的项目，用起来会省不少事儿。消息、存储、计算三合一的设计，挺适合现在这种微服务架构场景。尤其存算分离这块，对资源弹性伸缩友好，像突发大流量那种，效果还不错。还有个好处是，不容易出问题，出事儿排查起来也方便。多机房部署和持久化能力也比较成熟，业务对强一致性要求高的，用 Pulsar 挺合适。消息丢不丢？基本不丢。延迟大不大？低延迟的表现比 Kafka 还猛一点。多租户机制也帮你把

kafka 0 2025-06-10