小组作业的 Hive-MySQL 数据库搭建还挺实用的,尤其是你要整合多种大数据组件的时候。搭配 CDH 环境的话,Hive 连上 MySQL 当元数据库,稳定性和效率都还不错。
资源里整理了从 Hive 搭建到 MySQL 作业记录的全链条内容,适合动手能力强的你一步步搞定。Hive部分有搭建资源,MySQL也有课程作业 sql 文件,直接套用也没问题。
CDH版本的配置调优也有提到,尤其是Hive on Spark
那一块,响应快,部署不算难。要注意 MySQL 的字符集
,不然中文会乱码哦。
还有一个蛮实用的是Spark 替代 Hive做 ETL 的例子,如果你项目要跑批量,不妨试试看。
如果你还在为数据库课设发愁,推荐先看看mysql.sql
课程设计那篇,逻辑清晰,结构完整,拿来直接改改就能交差。