Hive 的数据仓库配上 R 语言的可视化,真的是数据里蛮顺手的一套组合。像这次做二相编码信号的性能,用到了Hive、HBase、R 语言,还串上了MySQL,整套流程不难,但中间细节挺多,尤其环境搭建那块,别小看,配不好光是 Hadoop 那一步就能卡半天。
二相编码信号的操作步骤也比较清晰,先把本地数据导进Hive,用SQL跑一跑,再倒腾进HBase做整合,用R搞个图表,展示效果还不错。嗯,用R Cookbook那几个函数模板也挺香的,省不少事。
你要是第一次接触这种实验环境,建议看看下面这个安装教程,像Zookeeper+Hadoop+Hive这套配置,文档上写得比较细,跟着做没什么坑。顺便说一句,hive-hbase-handler-1.2.1.jar
这个包别忘了装,不然中间数据互导那块会报错。
如果你是搞前端的,但最近在接触数据,那这套工具链也算是个不错的入门组合。部署完,跑点实验看看效果,挺有成就感的~