Apache Nutch 2.3.1 源码压缩包包含网络爬虫的完整源代码,采用ivy2进行依赖管理,并可通过 ant runtime 进行编译。
Apache Nutch 2.3.1 源码
相关推荐
Apache Tez 0.8.3 源码解读
Apache Tez 是一个构建于 YARN 之上的开源计算框架,支持 DAG 作业。Tez 源于 MapReduce 框架,但其核心思想是将 Map 和 Reduce 操作进一步拆分为更细粒度的元操作,例如 Input、Processor、Sort、Merge 和 Output。这些元操作可以自由组合,形成新的操作,并通过控制程序组装成复杂的 DAG 作业。 Tez 的主要特点包括:- 作为 Apache 二级开源项目,其源代码已正式发布。- 运行于 YARN 之上,可有效利用集群资源。- 适用于 DAG(有向图)应用,可替代 Hive/Pig 等传统数据处理工具,类似于 Impala、D
Hive
11
2024-05-12
Spark 2.3.1离线文档
Spark 2.3.1 的离线文档,挺适合用来查 API、翻模块逻辑的。压缩包里是完整的官方文档,放到本地随时查,尤其网络不稳或者在服务器环境下,贼方便。RDD是 Spark 最基础的东西,说白了就是可分布存储的只读数据集,操作全靠transformation和action。写个 Map 或者 Filter,再用collect()就能跑出结果。DataFrame和Dataset也蛮实用,尤其你用 Scala 或者 Java,类型安全、性能优化都做得不错。和Hive、Parquet这些打交道时,Spark SQL也派得上用场,能写 SQL 查,还能链式用 API 搞事。流部分靠Spark Str
spark
0
2025-06-13
Apache Storm 2.1.0 源码包
Apache Storm 2.1.0 版本的源码包,由 Apache 维护,最初由 Twitter 开源。此源码包为官网原版,可用于编译 Storm 模块,解决官方下载速度慢的问题。
Storm
21
2024-05-12
Apache Spark源码详解小册
Apache Spark源码详解小册知识点总览####一、开场白深入探讨Apache Spark的代码实现,特别是其核心组件——弹性分布式数据集(RDD)。作为Spark技术的学习者和热衷者,作者通过长期学习积累了丰富的笔记和心得,现在通过本书与广大读者分享这些宝贵资源。 ####二、RDD概述RDD作为Spark的基本数据抽象,是一个只读的、可分区的数据集。RDD具备良好的容错性和并行处理能力,使其成为构建高效分布式应用的理想选择。 #####详细特性1. 分区列表(A list of partitions) -每个RDD可以包含多个分区,这是其基本组成部分。 -每个分区代表数据集的一个子集
spark
9
2024-08-09
Apache Kafka 2.2.0源码下载
《深入理解Kafka:从源码到实践》是在分布式消息系统领域中备受欢迎的Apache Kafka 2.2.0源代码包。“kafka-2.2.0-src.zip”提供了深入研究和学习Kafka内部机制的理想资源。通过解压和运行这些源代码,开发者可以全面理解Kafka的工作原理,显著提升开发和运维技能。Kafka是一个高吞吐量、持久化、分区和复制的消息队列,广泛应用于大数据领域。源代码包含核心组件如生产者、代理服务器、消费者和主题,以及管理API和连接器接口。
kafka
8
2024-08-23
Apache Spark 1.0源码剖析
Spark 源码的深入解读书挺多的,但这本《Apache Spark 源码剖析.pdf 最新版》算是我看过比较顺的那种。逻辑清楚,篇幅也控制得不错,不会看一半就晕。你如果想搞清楚Spark底层是怎么运转的,是调度、内存管理那块,拿它来入门源码还挺合适。
基于 Spark 1.0 版本的源码写的,虽然不是最新版,但对理解核心机制来说够用了。现在大版本变动也没以前频繁,架构上还是有参考价值的。重点是它不绕弯,直接带你看源码,不是那种上来就给你灌一堆理论的书。
里面比如讲到RDD 的执行过程,就会配上关键代码,像compute()、getPartitions()这些方法都点到位了。你一边读一边跟源码
spark
0
2025-06-16
Apache Hive 0.8.1 源码包
hive-0.8.1.tar.gz 是 Apache Hive 数据仓库软件 0.8.1 版本的源代码。
Hive
9
2024-06-30
Apache Hive 2.3.2 源码下载
Apache Hive 2.3.2 源码下载文件现已可供获取,该版本包含了最新的功能和改进,适用于需要定制化大数据解决方案的开发者和研究人员。
Hive
13
2024-07-18
apache-hive-2.3.8 源码备份
为方便获取 apache-hive-2.3.8 源码, 此处提供备份,源码原始链接为:https://mirrors.bfsu.edu.cn/apache/hive-2.3.8/。
Hive
13
2024-05-19