最新实例
2017杭州云栖大会大数据专题讲义分享
2017 杭州云栖大会的大咖讲义,内容真是蛮有料的,尤其是阿里那几个专场,SQL、MaxCompute 都讲得比较深入。讲义是 PDF 完整版,官方出的,质量还挺靠谱,适合你通勤路上翻一翻,吸收点新东西。 阿里开源峰会的分享里,讲到了不少关于大数据计算和分布式架构的设计思路,用的案例也接地气,比如怎么用MaxCompute做海量日志,听着就过瘾。 还有几个分论坛内容也不错,像SQL Server 专场、阿里云大数据服务这些,PDF 里都有图有例子,拿来边看边动手试,效率还挺高。尤其是做数据开发的朋友,这一套真能帮你少踩坑。 另外我顺手翻了几篇相关文章,也比较值得一看: 阿里云大数据专业认证
HBase权威指南分布式NoSQL数据库深入解析
HBase 权威指南这本书真的挺不错,适合对分布式 NoSQL 数据库感兴趣的同学。它详细了 HBase 的核心概念和使用技巧,深入了大规模数据存储的设计和实现。如果你之前对 HBase 有点了解,但没真正深入过,这本书会帮你更好地掌握它。它不仅了 HBase 的基础,还涵盖了性能优化、调优等实用内容。书中的每一章都有实际案例,你更快地理解如何在生产环境中使用 HBase。如果你正在大数据存储,或者在分布式系统中遇到存储瓶颈,这本书给出的方案和思路都会有。不过,注意它是针对有一定技术基础的读者,所以如果你对分布式系统不太熟悉,先了解一下 HDFS 或者其他 NoSQL 技术会更好。,这本书内容
HBase性能优化总结
HBase 作为基于列存储的 NoSQL 数据库,挺适合大数据的存储和。你要是用 HBase 来做项目,性能调优绝对得注意。因为,默认配置下它比较吃资源,是并发量大的时候容易出错。比如,Linux 的最大文件数默认是 1024,会碰到‘Too Many Open Files’的错误。这个你可以通过ulimit -n 4096临时调整,或者在配置文件中长期修改。此外,JVM 的堆内存大小也得调整一下。HBASE_HEAPSIZE 4000,设置为 4000MB,能让 JVM 更稳定。GC 配置方面,可以考虑使用并发收集模式,像-XX:+UseConcMarkSweepGC这种。HBase 的配置
Sqoop 1.4.6与Hadoop 2.0.4-alpha数据传输工具
Sqoop 是一个在 Hadoop 和传统关系数据库之间传输数据的工具。它的作用就像是一个桥梁,帮你轻松把大数据从关系数据库导入到 HDFS,或者反过来导出。适合数据工程师在进行数据迁移时使用。这个压缩包里的 Sqoop-1.4.6 版本与 Hadoop 2.0.4-alpha 兼容,性能还不错,尤其在资源调度上,能充分利用 YARN。你可以用它进行全表导入、按列导入,甚至做增量导入,节省时间和资源。如果你在做大数据,需要频繁地在 Hadoop 和 SQL 数据库之间移动数据,Sqoop 就是个好的选择。 使用起来也挺简单,解压后配置好环境变量,建立数据库连接,设置导入或导出的参数,执行任务就
HBase官方指南数据模型解析
HBase 的数据模型挺有意思的,设计得比较灵活,能大规模数据而不掉链子。你看,它的表是由行组成的,每行通过一个行键来唯一标识,行键的选取关键,能直接影响性能。像做网站时,可以用域名倒序做行键,这样相关数据就会顺利地存到一起,查询起来更快。就是列簇,它相当于数据表中的一组列,可以自己定义是否缓存、是否压缩等。每个表的行都有一样的列簇配置,尽管某些列簇在某行里是空的,HBase 还是会保留这个空列簇。再说说列限定符,这是用来区分同一列簇下不同列的方式,拿一个内容表举个例子,html和pdf可以是同一个列簇下的不同列限定符,表示内容的格式。最重要的就是时间戳,它能管理数据的历史版本,每次数据写入时
Selast前端开发资源包
如果你想快速搭建一个现代化的网页项目,selast.zip是个不错的选择。里面包含了常用的前端资源,比如CSS样式文件、HTML结构、JavaScript交互功能等。last.css可以帮你快速定义网页的布局和样式,selast.html为你了一个基本的 HTML 结构,last.js让你实现一些动态效果,像是按钮点击后显示隐藏内容啥的。而doT.min.js则是一个轻量级的模板引擎,可以你将数据与 HTML 模板结合,减少代码冗余。chrome_webui_apis.js这个文件,听名字就知道,它跟 Chrome 浏览器的一些内部 API 打交道,适合做浏览器扩展开发或者想要调试 Chrom
ZooKeeper 3.5.6分布式协调服务
Apache ZooKeeper 是挺实用的分布式协调服务。它为你在构建分布式系统时了基础设施支持,像是命名、配置管理、同步服务和群组管理等。简而言之,ZooKeeper 能帮你简化分布式系统的管理工作,节省了你不少时间。你可以把它想象成分布式系统的‘管理员’,确保系统各部分按顺序协调工作。尤其在像 Hadoop、Kafka 和 HBase 这种大数据框架中,ZooKeeper 的角色不可或缺。它的一个亮点就是全局顺序保证,操作有序,避免了混乱。3.5.6 版修复了一些 bug,并增强了性能,支持客户端批量求和更迅速的集群状态响应,适合大规模分布式系统。如果你要做类似的项目,ZooKeeper
Hadoop 3.3.0MySQL HBase环境部署套件
Hadoop、MySQL、HBase 的环境部署整套工具包,集成了各大常用组件,挺适合刚接触大数据的开发者。你可以通过这个压缩包快速搭建起一个 Hadoop 集群和 HBase 环境,省去了繁琐的安装步骤。里面包含了 Hadoop、HBase、MySQL 等常见的依赖组件,并且也给出了 JDK、MySQL 连接器的版本,挺方便的。 如果你是想搭建自己的大数据平台,或者试验 HBase 的使用,这个工具包就是个不错的起点。只需要下载并解压即可开始使用,适合一些开发测试或者学习使用。哦对,部署过程中可以参考里面的一些教程链接,挺详细的,可以你理解每个组件的作用和配置方法。 总体来说,这是一个省时又
隐式版本控制HBase学习笔记
隐式版本控制挺适合需要管理多个版本的项目,尤其在没有强制需求的情况下,可以通过代码自动递增版本号来简化管理。它的最大优点就是自动化,确保版本号不重复而且能递增,避免了手动管理的麻烦。嗯,啦,它也有一些潜在的副作用,比如一旦出现冲突,会导致版本号错乱,所以需要在代码层面严格控制版本号的赋值。如果你正在寻找版本管理工具,下面几个资源能帮上忙哦。 1. DMP 文件版本号修改工具 - 适合需要手动调整版本号的场景。 2. PowerDesigne 版本控制 - 对于数据库设计和版本控制比较适用。 3. ArcSDE 版本控制策略探讨 - 地理信息系统的数据管理。 4. SQL Server 版本管理
SHC 2.3.0Spark兼容HBase 2.1.0读写支持
shc 的自定义编译包shc-core-spark-2.3.0-hbase-2.1.0.jar,挺适合在CDH 6.2.0上折腾PySpark 2.4.0和HBase 2.1.0的朋友。直接拿来就能读写 HBase,免去了你自己编 JAR 包的麻烦,还是挺省事的。 用的是Hortonworks SHC的源码,兼容性不错,跑在 CDH 环境下也挺稳,尤其你要跟 HBase 做深度集成的场景,挺好使的。比如你想用 DataFrame 的方式查 HBase 表,直接搞定,写入也方便。 有一点要注意哈,Spark 版本别弄错了,这个包是配 Spark 2.3.x 的,虽然你跑 PySpark 2.4.