Apache Spark 是一款开源的集群计算框架,专为大规模数据处理设计。它继承了 Hadoop MapReduce 的优点,并优化了内存管理,使数据迭代算法更有效率,广泛应用于数据挖掘、机器学习等领域。
Apache Spark 中文版
相关推荐
Apache Ignite 开发手册中文版 (V2.3.0)
Apache Ignite (V2.3.0) 中文开发手册提供完整内容,但配图不全。
算法与数据结构
12
2024-05-23
深入理解Spark中文版官方文档指南
Apache Spark 是一个流行的开源大数据处理框架,以其高效、易用和可扩展性而闻名。Spark 提供了统一的计算模型,能够支持批处理、交互式查询(如 SQL)、实时流处理以及 机器学习 等多种数据处理任务。这个“Spark官方文档中文版”包含了对 Spark 的全面介绍和详细指南,对于理解和使用 Spark 极为重要。Spark 的核心概念是弹性分布式数据集(Resilient Distributed Dataset, RDD)。RDD 是一种不可变、分区的数据集合,可以在集群中的多个节点上并行操作。RDD 支持两种操作:转换(Transformation)和动作(Action)。转换创
spark
6
2024-10-25
Apache Hadoop中文版权威指南
《Apache Hadoop权威指南》是大数据领域的经典著作,深入介绍了开源分布式计算框架Apache Hadoop。最初由Doug Cutting和Mike Cafarella创建,支持Google的MapReduce和GFS的开源实现。本书的中文版为读者提供了学习Hadoop的便利,深入理解其核心概念和技术。Hadoop核心包括两个主要组件:Hadoop Distributed File System (HDFS)和MapReduce。HDFS是高容错、可扩展的分布式文件系统,专为存储和处理海量数据而设计。MapReduce通过映射和化简两个阶段实现数据的并行处理。Name
Hadoop
10
2024-07-22
Apache Spark 2.2.x中文手册
Apache Spark 2.2.x的中文官方参考手册(非API文档)。本教程简要介绍如何使用Spark。首先,我们将通过Spark的交互式shell介绍(Python或Scala) API的基础知识,然后演示如何使用Java、Scala和Python编写Spark应用程序。
spark
11
2024-08-08
MySQL中文版手册
MySQL中文版手册提供MySQL数据库的全面使用指导,帮助用户轻松学习和使用MySQL。
MySQL
21
2024-04-30
Navicat 9 中文版
Navicat 9 中文版是一款强大的数据库管理工具,支持连接 MySQL、SQL Server 和 Oracle 数据库。它提供直观的用户界面和丰富的功能,帮助用户轻松管理数据库。
MySQL
16
2024-05-01
DataLoad中文版详解
DataLoad是专为Oracle开发的数据录入工具,同时也支持其他相关程序。它提供了高效的数据录入和管理功能,极大地简化了数据处理过程,为用户带来了极大的便利和效率提升。
Oracle
8
2024-09-30
SecureCRT 绿色中文版
用于 Windows 下登录 UNIX 或 Linux 服务器主机的软件。是连接运行 Windows、UNIX 和 VMS 的理想工具。
Hadoop
16
2024-04-29
WinAirCrackPack 4.0 中文版
WinAirCrackPack 4.0 中文版,Wi-Fi 密码破解神器,帮助您轻松破解 Wi-Fi 密码。
DB2
15
2024-04-30