大数据面试二Hive表类型与存储优化

Hive 的外部表和内部表差别挺大的，理解了这一点，你就能更好地管理数据了。内部表数据完全由 Hive 掌控，删除时会连数据一并删掉；而外部表则是 HDFS 管理，删除表时数据不受影响，只有元数据会删掉。面试时问起这个，记得清楚回答哦。

，Hive 索引虽然支持，但效率不高，常常用于静态字段，避免频繁重建。其实，HDFS 本身的存储和查询也能做到不少优化。

说到存储格式，ORC 和 Parquet 的压缩性能都蛮强的，ORC 尤其对查询有，减少 I/O 有效。而 Parquet 支持更复杂的嵌套数据结构，适合那些复杂的业务场景。

如果你还不熟悉 Hive 的调度和运维，可以考虑用 Azkaban 或 Oozie 配合 Hive SQL 脚本来做定时执行，操作起来挺方便。

在数据建模方面，星型模型简单直观，但会带来冗余；雪花模型结构更复杂，性能也较低；如果你需要更灵活的设计，星座模型能多个事实表，满足复杂需求。