Greenplum 的大规模并行架构,加上 Hadoop 的分布式存储能力,做大数据真的是事半功倍。这套课程讲的就是怎么在这两个平台上搞定数据的装载和卸载,说白了,就是怎么把数据搞进去、再拿出来,干货挺多的。
Greenplum的数据装载环节,步骤还挺清晰:先准备格式规范的数据,比如CSV
;再建好目标表结构,别忘了配置好分布策略;用gpload
或者COPY
命令装载,推荐gpload
,配置灵活还能做容错;得检查数据完整性,万一哪条漏了就尴尬了。
Hadoop这边的流程也比较接地气:用hadoop fs -put
上传数据文件到 HDFS,或者走 Web 界面也行;数据就靠MapReduce
或者Spark
这种老搭档;下载呢,用fs -get
拉回本地,或者 Hive、Pig 导成你想要的格式都挺方便;卸载就用fs -rm
,不过注意点,删了就回不来了。
实际项目里,这两个平台搭配用效果蛮不错:Greenplum 擅长做,用来跑报表挺合适;Hadoop 擅长搞批,是日志或者原始数据这块,效率也不低。你要是做大数据系统集成,两个都得熟点。
课程配套的视频30 -装载和卸载数据(1).mp4
讲得还算细,操作步骤全、概念解释得也挺明白,适合有点基础又想往深里走的你。顺手也可以看看这几个相关文章:
- Greenplum 安装指南(2)
- Hadoop 分布式计算平台概述
- Hadoop 分布式安装指南
- 构建大数据 hadoop 分布式集群
- Hadoop:分布式系统基石
- 在虚拟机上安装分布式 greenplum 数据库
- HDFS Comics Hadoop 分布式存储基础
如果你正打算把 Greenplum 和 Hadoop 结合起来用,不妨先把这个课程过一遍,省你走不少弯路。