最新实例
Simba Spark JDBC连接驱动合集
Spark 环境下的 JDBC 连接,Simba_Spark_JDBC这个驱动还挺靠谱的。用过不少方案,这个兼容性比较好,连 Hive、Hadoop 啥的都能稳稳跑起来,连接也比较快。 压缩包里集成了一堆 Apache 家的库,像HttpComponents、Thrift、ZooKeeper这些,版本也比较新,拿来就能用。平时调试时,日志也挺清晰,出了错好排查。 如果你用的是DbVisualizer,这个驱动配合起来也没什么坑,基本上按文档配置一下,JDBC 地址填好就行,jdbc:spark://host:port那种格式,蛮直接的。 我自己是跑 Hive on Spark 的时候用的,是配
贵州省区县级行政区划数据
贵州省各区县名称的整理数据,用起来还挺方便的。你做前端开发要用到行政区划数据,或者要在表单里搞个地区下拉框,这份资源就蛮合适。数据格式规整,字段清晰,像县级名称、所属市这些都有,直接能拿来用,省了不少事儿。 全国省市区县的标准编码那份资源也值得一看,尤其是你要做表单联动或者数据关联那种。它把每一级的行政区都配了统一的编码,比如520102这种六位数,和国家统计局那边是对得上的,方便对接各种接口。 哦对,如果你用SPSS做数据,第二篇文章讲变量标签的那部分也挺有。虽然不是前端的直接场景,但你要和数据那边协作的时候,用得上。 还有一个中国省市区县数据表的链接也推荐你收藏下,数据量挺全的,能导出成表
Spark调优实践总结
Spark 调优的干货总结,经验丰富的同事写的,内容比较全面,适合有一定基础的你参考参考。 Join 优化是个老话题了,用得多出问题也多。文档里提到的广播 Join挺实用的,尤其是大表小表配对时,直接把小表广播到各个节点,省下了不少网络 IO。这招在 MapReduce 和 Hive 里也用过,效果还挺。 数据倾斜的问题也有不少细节。比如空值集中,建议加点随机值打散下分布;再比如count(distinct)太重,可以先 Group By;还有倾斜 Key,单独拎出来,再合回去。这几招组合拳下来,性能能提一截。 小文件太多会把任务分得碎,启动开销大得离谱。可以用coalesce来减少分区数,别
实时监控MySQL更新保存到HBase
实时数据同步的搭建其实没你想的那么麻烦,关键是找对工具配好节奏。MySQL 的 binlog 配上Maxwell,就能把数据库的更新变成 JSON 消息丢进Kafka里。Kafka 的吞吐量挺大,稳得,就靠Spark Streaming来实时消费这些消息,后直接写进HBase。数据逻辑你可以灵活写,啥转换、过滤都能加上。HBase 的数据查询交给Phoenix就行,它能让你用 SQL 方式查 NoSQL 数据,挺方便的。整个流程跑起来,适合做日志、用户行为追踪这些需要实时反馈的业务。文档里讲得蛮细,从环境搭建到代码结构,甚至 Kafka 参数怎么配都写得明明白白,按着操作也不容易踩坑。对了,如
Spark基础知识讲解
Spark 的基础知识,内容不绕弯子,讲得挺清楚,尤其适合刚入门大数据的你。邹紫岩的整理逻辑还不错,知识点比较系统,从RDD到Spark SQL都覆盖到了。就算你之前只听说过 Hadoop,用这个入门也不算晚。页面加载快,阅读体验也蛮友好。
Scala编程实战基础教程入门与实践
Scala 的多范式编程能力,真的挺适合大数据场景的。《Scala 编程实战基础教程》的结构安排比较贴地气,从语法开始讲起,一步步带你入门函数式思维。像map、filter这些操作,讲得还挺清楚,初学者上手不难。类型系统这块也讲得蛮细,Option 类型、类型推断都有例子,少了不少踩坑机会。你要是用过 Java,再来学 Scala,会觉得它语法更精简,表达力还更强。函数式编程方面,教程挺重视实践。比如怎么用高阶函数集合,怎么通过尾递归优化性能,讲得都挺实在,不晦涩。并发那块也有提,了Actor 模型和Akka库,适合想搞分布式的你去了解下。要写 Spark 项目,用这个思路来构建服务,效率还不
传统计算机组成与三次信息化浪潮解析
传统计算机的硬件组成,就像咱们写代码要懂 DOM 结构一样,搞大数据之前,先搞清楚 CPU、内存、硬盘这些基础部件挺重要的。尤其是现在大数据满天飞,如果你连CPU是怎么和memory协作都不清楚,做分布式可就容易出坑哦。讲信息化浪潮那一块儿挺有意思,三波浪潮像是 IT 圈的三段副本——从第一台商用机到 PC 普及,再到 Web 时代的井喷,变化太快,不看不行。大数据的五个 V 特征也总结得蛮清楚的,Volume、Velocity、Variety这些词听着玄,其实你想想微博热搜、淘宝秒杀、智能摄像头的数据流,那都是 V 的体现。大数据可少不了Hadoop、Spark这些工具,说白了,它们就是能把
Spark讲义总结DAG执行与Akka整合
基于Actor 模型的Akka 框架代码结构挺简洁,配合Spark的DAG执行引擎,用起来还挺顺手的。嗯,DAG 说白了就是一张不能绕回去的图,避免死循环,执行流程也清晰,适合一连串的操作。用Scala写逻辑的时候,配合 DAG 的方式,还蛮高效的——中间结果不怎么落磁盘,内存里就搞定,速度快了不少。尤其做批或者复杂依赖场景,优势挺的。刚上手可以看看Scala 与 Spark 初体验,感受下整体流程。想深入一点,推荐研究SMACK 架构里的 Akka 和 Spark 组合,理解背后设计思路挺有。代码示例也别错过,比如Word Count 源码就比较基础但典型,拿来改改就能跑。如果你想动手实践,
Spark GraphX in Action图计算入门指南
图计算项目里的大杀器,Spark GraphX的资料一直不算多。Spark.GraphX.in.Action这份 PDF 算是比较系统的,逻辑清晰,案例也实在,挺适合用来入门或者打基础的。 图结构的数据用起来爽,但一上手就懵?嗯,GraphX 正好能帮你解开这个结。像社交网络关系、推荐系统里的用户-商品图,这些都能搞。 文档里不少示例是基于 spark-graphx_2.12-2.4.5.jar 写的,如果你项目刚好也是 Spark 2.x 的版本,那就贴合。没有花里胡哨的语法,逻辑也直接清晰。 如果你习惯边看边实践,建议先把 GraphX 项目的 jar 包拉下来,比如这个版本的GraphX
Apache Spark面试题宝典
面试前的冲刺,搞定 Spark 靠这份压箱底的干货包就够了。Apache Spark 的面试题.zip整理得还挺全,从基础概念到性能调优,10 大模块内容都有,讲得还挺清楚。RDD、DataFrame、Shuffle这些高频点都有详细解释,而且配了不少实用技巧,比如怎么减少 Shuffle 开销,怎么理解 Job、Stage、Task 这些执行单位。架构部分也不错,像本地模式和 YARN 模式啥的,讲得简明又直白,适合临时抱佛脚但又想理解透一点的你。Spark SQL那块我觉得讲得还挺细,DataFrame 和 Dataset 的区别、新老 SQL 接口的对比这些,面试官爱问的点基本都踩上了。