命令行下查看 Parquet 文件内容,用 parquet-tools 就挺顺手的,尤其你文件直接在 HDFS 上的时候。输出清爽,能看 schema、row group、具体数据。比起写 Spark 代码跑一遍,轻便多了。

parquet-toolsdumphead 命令还挺实用,常用来快速确认字段和数据有没有问题。比如你新写了个 ETL,第一时间想验证下结果,就靠它了。

下载方便,有现成的 parquet-tools-0.1.0-bin.tar.gz 可直接用。解压后进命令行,跑个 parquet-tools schema hdfs://path/to/file 立马看到结构,挺直观的。

对了,如果你在 Windows 上,图形化工具 ParquetViewer.exe 也可以备一份,操作简单,看数据方便。

另外, Parquet 的时候也可以考虑用 JavaPySpark,像 Java 操作 ParquetCSV 转 Parquet 的场景也常见,工具选得好,效率差不少。

如果你经常在 HDFS 上数据,HDFS 权限hdfs-site.xml 配置也值得了解一下,遇到权限问题时能少踩坑。