Hive 的外部表和内部表差别挺大的,理解了这一点,你就能更好地管理数据了。内部表数据完全由 Hive 掌控,删除时会连数据一并删掉;而外部表则是 HDFS 管理,删除表时数据不受影响,只有元数据会删掉。面试时问起这个,记得清楚回答哦。

,Hive 索引虽然支持,但效率不高,常常用于静态字段,避免频繁重建。其实,HDFS 本身的存储和查询也能做到不少优化。

说到存储格式,ORC 和 Parquet 的压缩性能都蛮强的,ORC 尤其对查询有,减少 I/O 有效。而 Parquet 支持更复杂的嵌套数据结构,适合那些复杂的业务场景。

如果你还不熟悉 Hive 的调度和运维,可以考虑用 Azkaban 或 Oozie 配合 Hive SQL 脚本来做定时执行,操作起来挺方便。

在数据建模方面,星型模型简单直观,但会带来冗余;雪花模型结构更复杂,性能也较低;如果你需要更灵活的设计,星座模型能多个事实表,满足复杂需求。