最新实例
Oozie Workflow案例集
Oozie 的 workflow 案例集,比较全,适合你开发调度流程的时候参考。里打包的是 Cloudera 贡献给 Apache 的 Oozie 官方案例,用来跑Hadoop作业的。嗯,说白了就是你不用从 0 搭流程了,直接拿来改挺省事儿。 Oozie 本身是跑在Tomcat里的Java Servlet程序,用XML写 workflow,比较像你在画流程图那种思路——定义干啥、顺序怎么走。你要是做过Airflow或者Azkaban,会发现它们思路也差不多。 这个压缩包里包括了各种类型的 workflow 案例,比如MapReduce、Hive、Shell任务,连coordinator和bun
Hadoop思维导图详解
Hadoop 的思维导图整理得真是挺清楚的。每一块内容都分得细,像是 HDFS、MapReduce、YARN 这些模块都有对应的知识点归纳,看一眼就能理清楚。对于刚入门或者复习的人来说,挺省事的,不用翻一堆资料。 结构上的分类也蛮合理,逻辑是按“Hadoop 核心→生态组件→使用场景”这样铺开的。像你在搭建分布式集群时,就能对照思维导图快速查缺补漏,哪里没配好,一看就知道。 而且不光有框架,内容里还带着不少实际经验,比如HDFS 副本机制、作业调度这些点都提到了,蛮接地气的,跟只讲理论的资料不太一样。适合动手的你看着上手。 如果你想更深入,可以搭配下面这几篇文章一起看,像分布式系统在大数据中的
AS深圳2018-超大规模软件架构度量与演进
架构腐化、交付变慢、需求难落地……你是不是也经常碰到这些大项目常见的“老大难”?吴文胜在《超大规模软件架构度量与演进的思考和实践》这篇分享里,讲了华为怎么搞自动化架构度量、怎么“看护”架构不跑偏,还真挺有意思的。尤其是用了像 UADPGuarding 这样的工具,配合 架构可视化 和 重构策略,让整个团队都能站在同一张图纸上说话。不追求精确度量,而是靠趋势判断演进方向——这一点我觉得适合咱们平时的项目实战。如果你正在做大型系统,又苦于维护难度大,不妨看看这篇,至少能启发你几个思路。
HiveService老版服务组件
Hive 的老服务 hive-service.jar 其实现在用得不多了,主要是因为从 Hive 0.15 开始就准备下线 HiveServer,官方也推荐你切到 HiveServer2,更稳定也更安全,兼容性也不错。 早期跑 UDTF 的时候要用 hive-service.jar,现在在 HiveServer2 里也能跑,就是得稍微配一下环境,不然会踩坑。具体怎么弄,可以看看这篇文章:UDTF 函数在 HiveServer2 中不生效的问题,写得蛮详细。 你如果还在用旧版的 Hive,那 hive-service.jar 还是能派上用场的,比如快速测试、兼容老项目、搭本地服务啥的。只不过别拿
HadoopHadoop思维导图
大数据学习路上的 Hadoop 思维导图,还挺实用的,适合理清核心组件和运行原理这类东西。结构清晰,内容覆盖也比较全,从 HDFS 到 MapReduce 都带到了。你要是刚接触大数据,或者在整理知识体系,这份导图绝对值得收藏。 Hadoop 的模块划分还挺直观,像 HDFS、YARN、MapReduce 之间的关系梳理得明白,适合搭建你对 Hadoop 的整体认知。哪怕你已经上手过一阵子了,用它来查漏补缺也蛮合适。 搭配下面这些导图一起看,效果更佳: YARN 思维导图——调度、资源管理部分讲得蛮细 Spark Core 思维导图——理解跟 Hadoop 的对比 Scala 知
聚类方法评价标准与数据挖掘应用
聚类的评价标准,说实话是搞无监督学习绕不开的一关。你用了KMeans,结果和别人不一样?嗯,这就是评估手段不到位的问题了。文章里讲得挺细,什么不同算法、不同初始参数都能让结果变样,确实挺真实。还有个重点:哪怕是同一个模型,只要初始条件一变,聚出来的类别也完全不是一回事。这种情况在实战里经常碰到,尤其做用户画像那种,一不注意就偏了。
Hadoop伪分布式集群安装教程
伪分布式的 Hadoop 集群配置,适合入门摸索分布式的你。配置难度不高,踩坑也少,搭完基本就能跑点实际任务了,挺适合学习和测试用的。像搭在一台机器上、模拟多节点的环境,资源要求也不高,挺省心的。 Hadoop 的 CDH 版本用得还蛮多,稳定性也不错。想快速上手的话可以看看Hadoop CDH 伪分布式集群搭建教程,教程清晰,基本跟着走就能搭出来,适合没啥经验的小伙伴。 如果你更关注安装流程而不是哪个版本,那伪分布式安装指南也挺实用,偏通用型的思路,对理解整体流程比较有。是一些常见的core-site.xml配置,讲得挺细。 涉及到 Zookeeper 的话,也可以参考Zookeeper 伪
Hadoop Common 2.7.4Windows依赖包
Windows 下折腾 Hadoop,遇到UnsatisfiedLinkError那种奇怪的报错?嗯,你不是一个人。hadoop-common-2.7.4-bin这个包里直接带了hadoop.dll和winutils.exe,省得你到处扒版本,一个不对又报错。 winutils.exe要放到HADOOP_HOME\bin,hadoop.dll扔进Windows\System32,启动就顺了,开发环境安稳多了。 我之前调试HDFS的时候,一直卡在权限校验上,后来才发现是少了这俩玩意。装上之后,NativeIO那类报错就直接没了,省事不少。 如果你也是在 Windows 上搭 Hadoop 2.7
SAS新手入门模块解析
SAS 的模块组合挺灵活的,适合刚上手数据的你。从数据库管理到工具,基本上你能想到的功能它都能覆盖,像分布式、多平台支持这些也没落下。你不用担心一上来就太复杂,分模块看,慢慢上手还蛮友好的。 工具那块比较强,多行业都把它当标配用,比如医疗、金融啥的。嗯,要是你之前有点4GL经验,用起来会更顺手。没经验也没事,文档还挺全的,慢慢摸索就能跑通。 我建议你先从它的数据库管理模块入手,理一下数据怎么进来怎么出。再去看看它的工具,像报表、建模之类的,用起来还挺顺手。要是想扩展点高级玩法,可以试试分布式计算那一块。 想了解更多,可以看看《SAS 系统功能与模块解析》,讲得蛮细,挺适合新手的。如果你对 4G
Hadoop 2.7.5Windows运行环境
Windows 下搞 Hadoop 开发,用hadoop-common-2.7.5-bin-master真的挺省事的。别看名字长,其实就是帮你把 Hadoop 环境搭得妥妥的,像hadoop.dll和winutils.exe都准备好了。放到C:\Windows\System32里,Eclipse 里直接跑 MapReduce,基本不怎么踩坑。 Hadoop2.7.5算是比较稳定的一版了,兼容性不错,性能也靠谱。里面的bin和sbin目录,操作 Hadoop 服务就靠它们;conf目录里配置文件也挺清晰,像core-site.xml、hdfs-site.xml都能直接改;lib里是运行依赖,基本