最新实例
Hive二相编码信号性能分析
用户行为的二相编码信号性能这一块,Hive 配合 SQL 来搞还是挺顺手的。尤其某天某商品的购买或者浏览比例,用behavior_type过滤一下,再按visit_date查,思路清晰。嗯,代码也不复杂,像下面这样: select count(*) from bigdata_user where visit_date='2014-12-11' and behavior_type='4'; 数据搞清楚了,接下来怎么优化性能?下面这篇文章讲得挺细:《Hive 二相编码信号性能与问题总结》。讲了不少坑,比如信号冗余怎么、查询延迟怎么调优这些,适合你边看边试。
Ranger 2.0.0Kylin权限插件
ranger-2.0.0-SNAPSHOT-kylin-plugin 是个挺实用的小东西,是你在做 Kylin 权限这块,能帮你省不少事。Apache Ranger 的权限管理能力和审计功能,配上 Kylin 的 OLAP 查询性能,安全性一下子就上了一个台阶。插件装起来不算难,配个连接信息、调一下配置,基本就能跑起来,策略管理直接在 Ranger 的 Web 控台上操作,挺顺手的。多团队用一个 Kylin 集群?这插件还支持多租户,权限不冲突,清晰明了。,如果你想给 Kylin 加一道“防火墙”,它是个不错的选择。
视频监控保安监控系统1.0云数据中心建设方案
监控系统的云端部署方案,还挺适合现在这种远程管理多、设备分散的情况。整个系统覆盖建筑出入口、电梯、机房这些关键区域,画面实时、记录清晰,保安要查看也方便,遇到突发状况能第一时间反应。 监控点位覆盖全,像中心机房、电梯轿厢这种容易忽略的地方都没放过,细节考虑得蛮周全。设备接入也比较灵活,适合多场景扩展,不用担心部署环境限制。 后台系统响应快,界面还算清爽,数据调取也方便,适合做长期运维的基础平台。像那种需要定期调录像、查日志的操作,体验下来还不错。 你要是想深入了解监控系统怎么和数据中心搭着用,建议看看这几篇: 区域监控中心 LSC 功能解析 云数据中心建设方案解析 优化机房散热风
电商大数据分析平台架构设计与实现方案(详细版)
大数据平台的总体架构设计,挺适合做电商项目的参考资料。用户访问层到数据交换层,层次分明,模块拆得也比较细。像数据交换组件这种东西,在多系统对接的时候真的蛮重要的,少了它你就得自己各种格式转换,光编码就够头疼了。 用户行为数据、商品主题、协议主题这类主题数据区划分也比较清晰。用在客户、商品推荐场景里,还挺实用的。而且它不只是做用户层面的,还覆盖了供应链、财务、风控这些后台模块,适合做中后台系统架构参考。 平台提到了不少流程调度和数据管控的细节。说实话,这块多人容易忽略。你以为大数据平台只是跑任务、看报表,其实后面有一堆调度逻辑和监控告警在撑着。对了,它用的是多区分层思路,像实时数据区、贴源数据区
Hadoop 2.8.1+Zookeeper 3.4.6高可用集群部署指南
Hadoop-2.8.1 配 Zookeeper-3.4.6 的 HA 集群搭建指南,真的是一份比较实用的部署文档,尤其适合你刚开始折腾高可用环境的时候参考。它把各组件的兼容性、主机和目录规划都讲得挺细,照着配基本不会出大坑。 版本兼容性的那部分挺重要,比如用的CentOS 6.5、JRE 1.8.0_45,这些版本组合比较稳,少踩坑。而且也贴心地教你怎么确认操作系统版本、位数这些小细节。 主机规划这块你会看到 IP、主机名、服务分配都列清楚了。比如hadoop001上跑着NameNode、ResourceManager这些主要进程,都是 HA 模式,失效转移也有备份顶上。 目录结构那段建议你
Hadoop假数据推荐入门集
Hadoop 学习用的假数据,还挺好用的,适合入门推荐系统的朋友。movies.dat、ratings.dat、users.dat这三份文件基本能模拟一个完整的电影推荐流程。数据结构不复杂,字段也比较清晰。文件里的格式都比较统一,比如ratings.dat一行包含用户 ID、电影 ID、评分和时间戳,读起来不麻烦,用MapReduce或者Spark都挺顺的。你想搞平均分、热门电影统计,或者训练个推荐模型,数据都够用了。movies.dat里有电影 ID、标题、类型,拿来做内容也不错。你可以抓出科幻片、爱情片啥的,配合用户画像做个性推荐。而users.dat就记录用户基本信息,比如年龄、性别这些
Hadoop入门指南
Hadoop 的入门,建议你看下这个 PDF,讲得还挺通透的。虚拟机怎么命名、HDFS和MapReduce干嘛用,大数据那几大 V 概念也解释得比较清楚。Hive、Spark这些生态组件也都提到了,入门扫盲够用了。像是YARN、Oozie这些你之前没接触,文档里也有个的,能帮你有个整体框架。整体风格就是实打实地说概念,没有太多花里胡哨,适合你搞清楚“Hadoop 到底是个啥”。
Hadoop CDH伪分布式集群搭建教程
Hadoop CDH 版本的伪分布式搭建教程,真的是新手入门的大救星。图文并茂,细节讲得蛮清楚,从准备软件、装 VM、配 Hadoop 一路带着你走一遍。是配置那块,每个文件都讲了要加啥,像core-site.xml、yarn-site.xml这种关键配置都有代码示例,照着改就完事了。还有常见的 Web 界面入口、HDFS 操作都演示了,跟着做一遍,基本就入门了。
Hadoop入门教程
黑白分明的模块分类,知识点一目了然,Hadoop 学习这份资料挺适合新手入门也方便老手查漏补缺。内容从官网资源、起源背景讲到环境搭建和分布式部署,连 AWS 的云服务也顺带说了一下,覆盖面蛮广的。 环境搭建部分写得比较细,像hadoop-env.sh配置、免密登录设置、集群部署流程这些都挺实用,尤其适合第一次动手搭建集群的你。还提到了 JDK 环境变量怎么配,蛮贴心。 MapReduce 和 YARN的方式也不绕弯子,直接上来就说核心原理和任务流程,看一遍就能明白怎么回事。嗯,要是你刚好准备研究下分布式计算,这一节别跳。 生态系统部分列得挺全,从常见的 HDFS、Hive、HBase 到工具类
人社大数据建设方案架构设计与实战应用
人社系统的大数据方案,结构清晰、落地性强,蛮适合拿来做参考。先从行业现状切入,慢慢带你过一遍架构设计、技术思路,再讲建设方法和场景应用,节奏挺舒服的。里面的大数据架构用法比较实在,像数据采集平台、业务数据建模这些都有讲,跟你日常做数据可视化、后台系统对接啥的也挂得上钩。有些地方讲得还蛮细,比如数据分层设计、技术选型,对你想梳理项目逻辑挺有的。不是那种空谈架构的 PPT,实际应用场景比如社保、就业数据怎么跑流程也提到了,挺接地气。如果你正好在做政务项目,或者准备搞数据治理相关的内容,可以参考看看。顺手附上几个相关资源,像《大数据架构蓝图》、《大数据技术在实际业务中的应用》这些都还不错,值得一看。