如何高效切割和过滤大型TIFF文件？

python

2024-05-26 23:00:51

高效切割和过滤大型 TIFF 文件

导言

处理大型多波段图像时，我们经常面临切割图像成较小补丁的需要。然而，当图像包含大量 NaN 或零值时，处理这些补丁会变得繁琐且耗时。本文将深入探讨如何优化大型 TIFF 文件的切分过程，并通过过滤 NaN/零值补丁来提高效率。

切分大型 TIFF 文件

1. 向量化切分

利用 GDAL 的矢量化栅格切割方法，可以同时处理多个切片，从而最大限度地利用 CPU 资源，显著提高切分速度。

2. 优化切片尺寸

切片尺寸的选择至关重要。较小的切片尺寸会导致更多切片，从而增加处理时间。而较大的切片尺寸可能包含大量空白区域，影响存储效率。根据具体数据集进行权衡至关重要。

过滤 NaN/零值补丁

1. 条件表达式

NumPy 的条件表达式允许我们高效地检查像素值是否为 NaN 或零。这简化了代码，提高了执行效率。

2. 并行处理

对于拥有多个 CPU 内核的计算机，我们可以利用 Python 的多处理模块并行处理切片切割任务，从而缩短处理时间。

优化文件 I/O

1. 高效文件格式

使用 HDF5 或 Zarr 等高效文件格式存储切片可以加快文件 I/O 操作。这些格式支持压缩和分块，提高读写性能。

2. 减少文件写入

避免将 NaN/零值切片写入文件。通过在切割过程中检查像素值，我们可以跳过空数据补丁，节省存储空间和处理时间。

完整示例

import os
import multiprocessing as mp
from osgeo import gdal
import numpy as np
import h5py

# 设置参数
input_folder = '输入文件夹路径'
output_folder = '输出文件夹路径'
tile_size = 64  # 切片大小

# 获取 TIFF 文件列表
tiff_files = [file for file in os.listdir(input_folder) if file.endswith(".tif")]

# 定义并行处理函数
def process_file(file):
    # 打开 TIFF 文件
    ds = gdal.Open(os.path.join(input_folder, file))

    # 获取图像大小
    width = ds.RasterXSize
    height = ds.RasterYSize

    # 计算切片行列数
    num_cols = width // tile_size
    num_rows = height // tile_size

    # 创建 HDF5 文件
    with h5py.File(os.path.join(output_folder, f"{file}.h5"), "w") as h5file:
        # 为每个切片创建数据集
        for i in range(num_rows):
            for j in range(num_cols):
                # 计算切片偏移量
                xoff = j * tile_size
                yoff = i * tile_size

                # 检查是否包含 NaN/零值
                condition = np.all(np.isnan(ds.ReadAsArray(xoff=xoff, yoff=yoff, win_xsize=tile_size, win_ysize=tile_size)), axis=(1, 2))

                # 写入非 NaN/零值切片
                if not np.all(condition):
                    for band in range(1, ds.RasterCount + 1):
                        h5file[f"{file}_row{i}_col{j}"][band - 1, :, :] = ds.GetRasterBand(band).ReadAsArray(xoff=xoff, yoff=yoff, win_xsize=tile_size, win_ysize=tile_size)

# 并行处理
with mp.Pool(mp.cpu_count()) as pool:
    pool.map(process_file, tiff_files)

print('处理完成！')