数据系统的进化,三代技术的演变,其实就是从“能”到“得快”,再到“得稳”。Hive 数据仓库在第三代里算是个比较核心的角色,尤其是在应对大规模数据时,表现还挺亮眼。
Hive 的队列配置用得好,跑批效率能提升不少,推荐你看看这篇,讲得还算细。场景像是夜间跑报表、批量用户行为这些,Hive 挺合适的。
Hadoop 集群跟 Hive 搭配用更稳妥,大量数据分布式,一波带走。你可以看看这篇文章,对整个数据流流程讲得蛮系统。
如果你还没搞清楚“数据仓库”到底是啥概念,建议先看看这篇入门。讲得比较通俗,适合初学者。
另外,像FlumeNG这种工具,可以直接采集日志给 Hive 用。配好之后,像access.log
这种文件直接就能接进来。实战案例可以看这篇,用的是 Tomcat 日志,蛮实用的。
JobTracker的调度逻辑也值得一提,老 Hadoop 项目里常见。如果你项目比较老,还是要了解下它的演进过程。
,如果你在做海量数据,是批类型的任务,Hive加上Hadoop基本能搞定大部分场景。嗯,别忘了看看腾讯搞的TDW 方案,也是个不错的思路。
如果你刚入门,建议先从 Hive 基础看起,再慢慢往生态系统里扩,像 Flume、JobTracker 这些工具了解一下也不亏。