最新实例
FastSparkStreaming 2.0Spark流式处理工具
快速业务开发时的救星就是这个 FastSparkStreaming-2.0.jar。支持Kafka和Spark Streaming结合,两种比较实用的plan 设计模式:缓存模式和窗口模式,对不同场景都挺友好。
缓存模式的逻辑比较直白:结果直接丢进Kafka,不玩窗口那一套,适合对实时性要求高但不追求批间状态的场景。比如日志收集系统,落一波 Kafka 就完事儿。
窗口模式就偏复杂点了,适合需要对数据做窗口聚合或的需求,比如 10 分钟交易统计啥的。这种模式不持久化中间批次结果,轻量一些,资源占用也小,蛮适合日常数据类任务。
要注意的是两种模式不能混着用,选哪个看你业务需求。文档和代码都在作者
spark
0
2025-06-14
XGBoost4J-Spark 1.1.2分布式集成组件
Xgboost Spark 结合了 Xgboost 的强大预测能力与 Spark 的分布式计算优势,简直是大数据时的好帮手。通过 Xgboost 的 Jar 包,你可以在 Spark 上实现快速且高效的训练和预测。两个核心的 Jar 包:xgboost4j_2.11-1.1.2.jar和xgboost4j-spark_2.11-1.1.2.jar需要添加到 Spark 的类路径中,这样 Spark 才能识别并调用 Xgboost 的 API。至于 Python 接口,通过PySpark,你可以轻松将 Python 脚本与 Spark 集群对接,进行大规模数据。而且,这种配置能保持模型性能不变,
spark
0
2025-06-14
IEC IoT 2020数字化转型白皮书
数字化转型时代的推进速度,真是让人有点应接不暇。IEC_WP_IoT 2020_zh.pdf这份文档,内容挺扎实,主要讲的是各行各业在数字化浪潮中怎么重新定义自己,像城市化、气候变化、供应链这些老大难问题,文件里都有提到。
从开发者角度看,文档里提到的“数字化一切”蛮有意思的。不止是做个官网、写个后台系统那么简单,更像是把每一个环节都用数据打通。像你在开发供应链相关系统时,就可以参考下这份文档里提到的“数据中台”概念。
配套的相关文章也挺全,像全球数字化转型的路径与趋势这篇,适合了解整体格局。还有数据中台源代码免费分享这个链接,实用性强,代码也清晰,适合直接上手试试。
建议你下载下来,用碎片时
spark
0
2025-06-14
Spark 2.1.1Java+Scala官方API文档
最新版本的Spark 2.1.1的 Java 和 Scala 官方 API CHM 文档,自己制作的版本,虽然有些小问题,但基本功能和内容都全。想了解Spark的 API 细节?这份文档适合用来快速查阅。文档结构清晰,搜索功能也挺方便。虽然有些细节需要自己调整,但总体上还是蛮实用的。如果你是Spark开发者,或者在使用Scala大数据,这个资源还是挺值得一试的。嗯,下载链接也方便,随时可以查看,无需联网。总体来说,挺推荐的!
spark
0
2025-06-14
Spark Streaming Kafka 0.8稳定版实时数据流处理
spark-streaming-kafka-0-8 的稳定版本,适合实时流数据,依赖少,启动快,适合初次尝试 Spark 流的同学。你要是用过 Kafka,肯定知道它配合 Spark Streaming 玩起来多带劲,像消费日志、指标、实时清洗数据都能搞。
运行起来挺顺滑,assembly版本直接用spark-submit就能跑,不用东拼西凑依赖。嗯,日志一出来,消费者那边立马能响应,数据一条不落,可靠性还不错。
另外,这版本跟Kafka 0.8打得火热,适合老系统升级不及时的情况,省心。代码也简单,维护方便,连线上线都不用调太多参数。
如果你是想做个轻量实时监控系统,或者日志清洗的组件,这包
spark
0
2025-06-14
Flume最佳实践手册
Flume 最佳实践手册简直是大数据日志收集的神器,尤其适合用来大规模数据的流动。它通过分布式、可靠的方式将日志数据从源头传输到目的地,过程高效、稳定。你可以把 Flume 当成一个数据流转车间,Event 就是车间里的货物,Source、Channel 和 Sink 就是运输路径,确保数据顺畅流动。FlumeNG 版本 1.6 是它的轻量级版本,使用简单,还支持故障转移,挺适合中小型项目。通过理解 Flume 的架构,你能快速上手并优化数据流。像 ExecSource 和 SpoolSource 这些组件,你可以根据需要灵活配置,实用性蛮强的。如果你在大数据场景下需要高效日志流,Flume
spark
0
2025-06-14
滴滴技术沙龙第7期分布式系统与微服务架构
滴滴技术沙龙的第 7 期演讲资料,内容还挺硬核的。讲了滴滴网关架构、订单平台演进,还有瓜子的 IM 系统啥的,都是实际业务里踩过坑的总结。压缩包直接打包好了,PPT、PDF 那种一应俱全,下载下来慢慢啃也不着急。你要是对大厂系统设计感兴趣,强烈建议收藏一下这个。
spark
0
2025-06-14
Spark 2全面精讲含调优与实战案例【非王家林版本】
如果你对大数据有点兴趣,或者想深入了解一下Spark2,这个资源应该挺适合你。Spark 的学习从基础到进阶都有,内容全面。是它不仅仅了Spark2的基础知识,还有一些实用的调优案例,能让你快速上手并提高效率。Spark 调优实战案例分享这篇文章就是不错的实战案例,挺有的。你还可以从其他相关的资源中学到一些大数据开发的技巧,比如Python 与 Spark结合的案例,实战性强。对于想做毕业设计的同学,也可以参考一下关于Spark 自动调优机制的研究,理论加实践,效果应该蛮不错的。至于安装部分,Windows 版本的安装包也能轻松搞定。Spark2的学习不仅是基础入门,更多的也是如何在实际场景中
spark
0
2025-06-14
Apache Spark 2.4.3核心调度机制
Spark 2.4.3 的源码,蛮适合想搞懂大数据底层机制的朋友。spark-core_2.11是核心模块,涵盖了从 RDD 到 DAG 调度、内存管理,再到任务调度和 Executor 的方方面面。你要是有时间啃源码,这一版还挺稳当,结构清晰,逻辑也不绕。里面的DAGScheduler和TaskScheduler这两个类,建议重点看看,调度流程基本就靠它俩撑着。
spark
0
2025-06-14
Apache Spark生态系统学习指南
大数据的日常里,Spark 生态系统算是个比较常用的家伙了,挺全能的,批、流都能上。Spark Core负责底层调度,Spark SQL管结构化数据,MLlib搞机器学习,GraphX玩图计算,几乎啥都有。
RDD 的 RDD概念是基础,它是弹性分布式数据集,说白了就是能并行运算的大块数据。你写的任务都会先被切片,丢给各个 Executor 跑,Driver 就像个调度员,负责发号施令,Cluster Manager 就像物业,分配房间(资源)用的。
实际用下来,Spark Streaming实时数据也挺不错,比如日志监控、实时推荐系统这些都靠它撑着。MLlib呢,虽说不算最先进,但拿来训练一
spark
0
2025-06-14