问题和性能的总结挺有意思的,是你要是也在折腾Hive,这篇内容能给不少启发。像是整个上传流程比较顺利,前期环境准备得当——这点值得借鉴。不过在建表的时候踩了坑,嗯,这种小 bug 常见,记录下来对后面人挺大。
还有个亮点是,涉及到了二相编码信号的操作,这就比较偏技术了。如果你之前没接触过,建议先看看怎么用临时表来任务,会让思路清晰多。
对了,文章里还贴了不少不错的资料,比如Hive 工具使用手册、Apache Hive 框架、还有Hadoop 生态圈里的关系图。点进去看看,蛮多干货。
如果你最近也在整Hive 数据仓库相关的实验,建议先把建表相关的语法熟悉下,尤其是那种坑爹的分区表设置,挺容易出错的。可以从CREATE TABLE
语句开始一步步调试,别一上来就复制粘贴,容易忽略细节。