Python 迭代器按块划分：提高效率和管理大型数据集

2024-03-05 05:27:51

如何将 Python 迭代器按块划分

前言

迭代器是 Python 中用于遍历各种数据结构（如列表、元组和文件）的重要工具。在某些情况下，我们需要将迭代器中的元素分组为更小的块，以进行进一步处理或提高效率。本文将讨论在 Python 中按块划分迭代器的两种方法。

使用 itertools.zip_longest()

itertools 是 Python 标准库中用于处理迭代器的模块之一。zip_longest() 函数可用于将多个迭代器组合在一起，并在每个迭代中产生一个包含这些迭代器当前元素的元组。我们可以利用这个函数将单个迭代器分组为固定大小的块。

示例：

import itertools

# 创建一个迭代器
my_list = [1, 2, 3, 4, 5, 6, 7]
my_iterator = iter(my_list)

# 按块大小为 3 分组迭代器
block_size = 3
chunks = itertools.zip_longest(*[my_iterator] * block_size)

# 遍历块
for chunk in chunks:
    print(list(chunk))

输出：

[1, 2, 3]
[4, 5, 6]
[7, None, None]

在这种情况下，zip_longest() 将迭代器中的元素分组为大小为 3 的块。如果某个块没有足够元素填充，它将用 None 值填充。

使用自定义生成器

另一种方法是创建自定义生成器函数来实现按块迭代。生成器函数是一种返回一个生成器的特殊函数，生成器在每次调用其 next() 方法时产生一个值。

示例：

def chunks(iterator, size):
    # 创建一个空块
    chunk = []

    # 遍历迭代器
    for item in iterator:
        # 将元素添加到块
        chunk.append(item)

        # 如果块已达到所需大小，则产生该块并创建一个新块
        if len(chunk) == size:
            yield tuple(chunk)
            chunk = []

    # 如果迭代器中还有剩余元素，则产生最后一个块
    if chunk:
        yield tuple(chunk)

# 创建一个迭代器
my_list = [1, 2, 3, 4, 5, 6, 7]
my_iterator = iter(my_list)

# 按块大小为 3 分组迭代器
block_size = 3
chunks = chunks(my_iterator, block_size)

# 遍历块
for chunk in chunks:
    print(list(chunk))