深入了解数仓的IO框架

2023-10-30 21:43:12

从读写角度，带你了解数仓的IO基本框架

在数据仓库的构建和使用过程中，IO（输入输出）操作是一个至关重要的环节，直接影响着系统的性能和效率。本文将从读写两个角度出发，深入剖析数仓中行存和列存两种数据存储模型的IO基本框架，并对文件结构进行简要介绍，帮助读者快速掌握数仓的IO机制。

行存IO框架

行存模型将数据按行存储在表中，每一行包含记录的所有字段值。在读取时，系统需要一次性加载整个行的数据，因此IO操作会产生较大的开销。而写入时，系统需要更新整行数据，同样会导致较高的IO成本。

读取IO模型

行存模型的读取IO模型遵循顺序读取原则。当需要读取特定行的数据时，系统会从表头开始，逐行扫描，直到找到目标行。这种读取方式对于需要访问大量连续数据的查询非常高效，但对于需要随机访问特定字段数据的查询效率较低。

写入IO模型

行存模型的写入IO模型采用追加写入方式。当需要插入或更新一行数据时，系统会在表尾追加一条新记录，同时更新相关索引。这种写入方式可以避免覆盖现有数据，但对于需要频繁更新数据的表可能会产生较大的IO开销。

列存IO框架

与行存模型不同，列存模型将数据按列存储在表中，每一列的数据单独存储在一个文件中。在读取时，系统仅需要加载所需列的数据，因此IO操作更加灵活高效。而写入时，系统只需要更新特定列的数据，从而降低了IO成本。

读取IO模型

列存模型的读取IO模型支持列式扫描。当需要读取特定列的数据时，系统直接从该列的文件中读取数据，而无需加载整个行的数据。这种读取方式对于需要随机访问特定字段数据的查询非常高效，但对于需要访问大量连续数据的查询效率较低。

写入IO模型

列存模型的写入IO模型采用分块写入方式。当需要插入或更新一行数据时，系统会将数据按列分配到不同的文件中，并对每个文件进行追加写入。这种写入方式可以提高写入性能，同时避免覆盖现有数据。

文件结构

数仓中，数据通常存储在文件系统中。行存模型和列存模型的文件结构有所不同。

行存文件结构

行存模型的数据文件通常采用ORCARrow或Parquet格式。ORCARrow是一种列式存储格式，但它仍然将数据按行存储在文件中。Parquet则是一种基于行组的列式存储格式，每一行组包含一定数量的行数据。

列存文件结构

列存模型的数据文件通常采用ORC或Zstd格式。ORC是一种高效的列式存储格式，它将数据按列存储在文件中，并使用Run Length Encoding（RLE）和Dictionary Encoding（字典编码）等技术进行数据压缩。Zstd是一种无损数据压缩算法，它可以进一步提高列存文件的存储效率。