最新实例
Spark GraphX in Action 2016图计算实践指南
高清版的《Spark GraphX in Action》还挺良心的,页码目录全,翻起来也方便。讲的是Spark里那个做图计算的GraphX模块,说白了就是拿来各种网络关系的,比如用户关系、网页连接,挺适合搞社交、推荐、反欺诈的同学。
GraphX 的 API不复杂,图的顶点和边都能带属性,跑PageRank、ShortestPaths这些图算法顺手。作者也用了不少实际案例,比如社交传播、社区发现那类,还穿插着和Spark SQL、MLlib的配合。
你要是已经在用Spark数据,顺手扩展到图计算这块就自然了。不用单独部署图数据库,直接上分布式环境干活,效率也高,代码也简洁。
顺便提醒下,初学者
spark
0
2025-06-16
Spark Streaming Flume Sink 2.0.0数据接收器
spark-streaming-flume-sink_2.11-2.0.0.jar 的 jar 包,主要是干嘛的?嗯,说白了,它就是让你把Flume采集到的数据,直接推给Spark Streaming来,适合做实时日志、事件流这一类的活儿。对接简单,挺省事。
Flume 对接 Spark Streaming的时候,最大的麻烦就是接口兼容问题。这包的版本是2.11-2.0.0,对应的Spark和Flume也要注意对上号,不然容易连不上。你可以看看这个Spark Streaming Flume Sink 2.11 2.1.1,版本挺详细的。
用这个包之后,Flume 事件就可以直接被receive
spark
0
2025-06-16
Spark调优技巧
在做 Spark 调优时,直接用join操作会导致数据大规模 shuffle,需要大量的 I/O 操作,性能不太友好。是大数据时,shuffle 会拖慢任务执行速度。不过,使用broadcast操作就能这个问题。它会把小表广播到每台执行节点上,避免了 shuffle,关联操作直接在本地完成,效率提升。这样,不仅节省了 I/O 开销,任务并发度也提高了,整体性能大大增强。你可以尝试一下,如果你有小表关联的场景,broadcast是一个不错的选择。
spark
0
2025-06-16
大数据分析与应用案例分析
大数据的与应用案例讲得还挺细的,尤其是对Hadoop生态的拆解,蛮适合刚入门或者想系统捋一遍的前端朋友看一看。嗯,它不是讲怎么撸代码,但对你理解大数据架构、后端接口、数据流转逻辑挺有。Hadoop 的HDFS是怎么存储 TB 级数据的,MapReduce怎么拆解计算任务都说得明明白白,还顺带提了下YARN、Hive这类常见工具,干货不少。另外,国内外的技术发展也顺手提了一嘴,虽然不是重点,但能帮你大致知道业界都怎么玩,算是长点见识。如果你最近在搞可视化平台、BI界面、或者和后端协作搭数据功能,推荐花半小时扫一遍这篇。需要动手的朋友也可以顺着下面这些链接看一看,像《构建大数据 hadoop 分布
spark
0
2025-06-16
大数据分析与处理网页日志文件
网页日志的大数据一直是我觉得实用的一个场景。用户点了啥、搜了啥,全藏在这些日志文件里。用Hadoop和Spark来搞,效率是真高,适合批量那些成 GB、成 TB 的访问记录。
Hadoop 的 HDFS挺适合存这种结构比较简单、但量大的日志文件。它一上来就能自动切片分布存储,配合MapReduce搞点批,速度还真不赖。尤其是你机器一多,一整个站点的访问数据都不费劲。
Spark比 Hadoop 更注重内存计算,性能提升还挺的。像你要做点实时点的统计,或者跑些复杂逻辑,直接用Spark SQL就行,写个 SQL 语句就能跑。比如 404 最多的页面、找出访问次数最多的 URL,简单明了。
上手也
spark
0
2025-06-16
Java Spark分布式实战项目
基于 Java Spark API 的分布式实战,真心挺适合想搞清楚 Spark 开发流程的你。资料名叫2016012743_王宇轩_大数据实习二.zip,内容蛮全的,从环境搭建、代码结构到部署方式都有讲到。你只要有点 Java 基础,基本能跟上节奏,不算难。
Java 和 Spark 的结合,属于那种“一起用刚刚好”的组合。Spark 的RDD和SparkSession搞懂之后,写起代码来顺手多,逻辑清晰,响应也快。比如你想对一堆日志做个筛选,一通map、filter、reduce就搞定,效率还挺高。
实习项目里讲得比较细,像 Spark 的安装配置、版本匹配这种坑都帮你踩过了。用Maven
spark
0
2025-06-16
Tableau数据可视化敏捷BI教程
Tableau 的拖拽式界面,真是做可视化的好帮手。你只需要把数据拉进来,图表、仪表盘、坐标图立马生成,效率挺高的。适合那种赶报告、做图但又不想写太多代码的时候,响应也快,操作也直观。
Tableau 的交互性比较强,像你点一个图表上的分类,其他图表会自动联动更新。做销售数据仪表盘、业务汇总图,感觉还蛮顺手的。嗯,布局和样式也能自定义,颜色、形状、图例这些细节都能调,比较灵活。
我自己用它 Excel 表、SQL 导出的结构化数据,基本不用清洗太多,直接扔进去就能用。你也可以连接数据库、CSV,甚至 Google Sheets,支持的格式还挺多。
要是你想多了解点,像散点图、词云、气泡图这类实
spark
0
2025-06-16
Scala 2.10安装配置教程
Scala 的安装流程其实挺,只要你走对了顺序,基本上不会踩坑。这套教程里把JDK、Scala、还有开发神器IntelliJ IDEA的安装全都拆解清楚了,新手跟着一步步来就行。JDK 是 Scala 运行的底层依赖,先装它准没错。教程用的是 1.8 版本,稳定兼容性也比较好。装好后别忘了加上JAVA_HOME和path环境变量,不然你后面运行javac会报错。接下来是 Scala 本体,教程推荐的是 2.10 这个版本,虽然不是最新的,但在多老项目里还挺常见。下载地址和安装步骤都列得蛮清楚,还配了图,操作起来省心。IDEA 的安装部分也实用,用的是社区版,对大多数人来说已经够用了。顺手装个S
spark
0
2025-06-16
PySpark数据分析课程课件
PySpark 数据课程的课件源码,挺适合想入门或深入学习数据的小伙伴。虽然视频加密了,无法上传,但课程的课件提取了出来,内容还是蛮实用的。了如何使用 PySpark 进行数据、清洗和,适合用来提升你的 Python 数据技能。课程结合了实际操作,了多常见的数据技巧,挺适合那些想快速入门的开发者,甚至可以拿来做项目练手。如果你有一定基础,能更好地理解其中的高效技巧,提升你的项目实践能力哦。
spark
0
2025-06-16
Spark Spark2 2..3.0Hadoop2无Hive版3.0Hadoop2版本(不含Hive)
Spark 2.3.0 的版本更新挺有意思,尤其是这款spark-2.3.0-bin-hadoop2-without-hive,它最大的特点就是不带 Hive 的 JAR 包。你可以在不依赖 Hive 的情况下,使用SparkHive 上的数据,挺适合有独立 Hive 集群的同学。如果你是那种 Spark 能独立数据,又不想完全依赖 Hive 功能的开发者,这个版本就蛮合适的。其实,Spark的性能提升蛮,支持批、交互式查询和实时流。就算是没有 Hive JAR 包,你依旧可以通过配置文件来接入 Hive 的元数据。只要在配置文件里设置好spark.sql.hive.metastore.uri
spark
0
2025-06-16