parquet 文件结构

news/2024/5/20 4:29:32 标签: hadoop, hdfs

Apache Parquet是Apache Hadoop生态系统的一种免费的开源面向列的数据存储格式。它类似于Hadoop中可用的其他列存储文件格式，如RCFile格式和ORC格式。本文将简单介绍一下Parquet文件的结构。

Parquet文件格式包含两部分：

data
metadata
数据首先写入文件，元数据最后写入单遍（single pass）写入。首先让我们看一下Parquet文件的格式，然后再看一下元数据。

文件格式
在这里插入图片描述

HEADER

从整体上讲，Parquet包含一个header，一个或多个blocks 和一个footer。header和footer的最后包含了一个4-byte的魔术字（PAR1），这个魔术字表名此文件格式是Parquet格式。

所有的元数据信息保存在footer中。

DATA BLOCK

parquet文件中的块以嵌套结构的形式写入，如下所示

-Blocks

—Row Groups

—–Column Chunks

——-Page

parquet文件中的每个block以Row Group的形式存储。因此，parquet文件中的数据被划分为多个Row Group。这些Row Group由一个或多个column chunks组成，column chunks对应于数据集中的一列。每个column chunks的数据以page的形式写入。每个pages只包含特定列的值，因此pages是非常好的压缩候选对象，因为它们包含类似的值。
在这里插入图片描述