线程池 ThreadPoolExecutor 实例详解

2023-09-06 10:02:41

引言

在当今快节奏的数字世界中，软件应用程序需要处理海量数据和并发任务，传统的单线程编程模式已无法满足需求。Python 提供了强大的并发编程库 concurrent.futures，其中最具代表性的便是 ThreadPoolExecutor，它允许您轻松创建和管理线程池，从而提高程序的效率和性能。

认识 ThreadPoolExecutor

ThreadPoolExecutor 是一个线程池管理类，它允许您在其中创建指定数量的线程，并将其复用于执行多个任务。当您将任务提交给 ThreadPoolExecutor 时，它会自动将任务分配给可用的线程来执行，无需您手动创建和管理线程。ThreadPoolExecutor 的核心优势在于它可以有效地管理线程资源，减少线程创建和销毁的开销，从而提高程序的整体性能。

创建和初始化 ThreadPoolExecutor

创建 ThreadPoolExecutor 的过程非常简单，只需要一行代码即可：

from concurrent.futures import ThreadPoolExecutor

# 创建一个拥有5个线程的线程池
thread_pool = ThreadPoolExecutor(max_workers=5)

在上面的示例中，我们使用 ThreadPoolExecutor 创建了一个拥有5个线程的线程池。max_workers 参数指定了线程池中最大线程数量，它可以是任何大于等于1的整数。如果未指定 max_workers 参数，ThreadPoolExecutor 将使用系统默认的线程数量。

提交任务给 ThreadPoolExecutor

将任务提交给 ThreadPoolExecutor 也很简单，只需使用 submit() 方法即可：

# 提交一个任务到线程池
future = thread_pool.submit(my_function, args, kwargs)

在上面的示例中，我们使用 submit() 方法将 my_function 函数提交给线程池执行。my_function 是您要执行的任务，args 和 kwargs 是要传递给该任务的实参和实参。submit() 方法返回一个 Future 对象，它代表了任务的状态和结果。

获取任务结果

要获取任务的结果，您可以使用 Future 对象的 result() 方法：

# 获取任务结果
result = future.result()

result() 方法会阻塞当前线程，直到任务完成并返回结果。如果您不希望阻塞当前线程，可以使用 Future 对象的 add_done_callback() 方法来注册一个回调函数，当任务完成时回调函数将被调用。

线程池的关闭

当您不再需要使用 ThreadPoolExecutor 时，您应该将其关闭以释放系统资源。您可以使用 close() 方法或 shutdown() 方法来关闭线程池：

# 关闭线程池
thread_pool.close()

# 关闭线程池并等待所有任务完成
thread_pool.shutdown(wait=True)

close() 方法会立即关闭线程池，而 shutdown() 方法会等待所有任务完成再关闭线程池。

实战：使用 ThreadPoolExecutor 来加速计算

为了更深入地了解 ThreadPoolExecutor 的用法，让我们通过一个简单的示例来看一下如何在实践中使用它来加速计算。假设我们有一个列表，其中包含1000个数字，我们要计算每个数字的平方。

import time
import concurrent.futures

def calculate_square(number):
    """
    计算数字的平方
    """
    return number * number

def calculate_squares_serial(numbers):
    """
    顺序计算数字的平方
    """
    start_time = time.time()
    squares = []
    for number in numbers:
        squares.append(calculate_square(number))
    end_time = time.time()
    print("顺序计算耗时：", end_time - start_time)
    return squares

def calculate_squares_parallel(numbers):
    """
    并行计算数字的平方
    """
    start_time = time.time()
    with concurrent.futures.ThreadPoolExecutor() as thread_pool:
        # 使用map()函数将calculate_square函数应用于numbers列表中的每个元素
        squares = list(thread_pool.map(calculate_square, numbers))
    end_time = time.time()
    print("并行计算耗时：", end_time - start_time)
    return squares

if __name__ == "__main__":
    # 生成1000个随机数字
    numbers = [random.randint(1, 1000) for i in range(1000)]

    # 顺序计算数字的平方
    squares_serial = calculate_squares_serial(numbers)

    # 并行计算数字的平方
    squares_parallel = calculate_squares_parallel(numbers)

    # 比较顺序计算和并行计算的耗时
    print("顺序计算结果：", squares_serial)
    print("并行计算结果：", squares_parallel)

在上面的示例中，我们首先定义了一个 calculate_square() 函数来计算数字的平方。然后，我们定义了两个函数 calculate_squares_serial() 和 calculate_squares_parallel()，分别用于顺序计算和并行计算数字的平方。

在主函数中，我们生成1000个随机数字，并使用 calculate_squares_serial() 和 calculate_squares_parallel() 分别对这些数字进行顺序计算和并行计算。最后，我们比较了顺序计算和并行计算的耗时，并打印出计算结果。

运行上面的程序，您会发现并行计算的耗时要远远低于顺序计算的耗时。这是因为 ThreadPoolExecutor 可以同时执行多个任务，从而提高了程序的整体性能。

总结

ThreadPoolExecutor 是 Python 中非常强大的一个线程池管理类，它可以帮助您轻松创建和管理线程池，并使用线程池来实现高效的并发编程。在本文中，我们介绍了 ThreadPoolExecutor 的基本用法，并通过一个简单的示例展示了如何使用 ThreadPoolExecutor 来加速计算。希望本文能够帮助您更好地理解和使用 ThreadPoolExecutor。