ProcessPoolExecutor 的陷阱：全局变量的局限性，你一定要知道！

2024-03-01 08:33:29

ProcessPoolExecutor 的棘手问题：全局变量的局限性

引言

在多进程并行计算中，ProcessPoolExecutor 是一种强大的工具。然而，它会带来一个意想不到的问题：在 if __name__ == '__main__': 之后定义的全局变量将无法在子进程中访问。

问题剖析

当脚本运行时，解释器会为每个模块创建独立的命名空间。模块的全局变量存储在这个命名空间中。但是，当使用 ProcessPoolExecutor 时，子进程将创建一个全新的解释器，拥有自己的独立命名空间。因此，子进程无法访问主进程中定义的全局变量。

解决方法

要解决此问题，需要在 if __name__ == '__main__': 之前定义全局变量。这将确保所有进程共享这些变量。

最佳实践

为避免此类问题，请遵循以下最佳实践：

限制全局变量的使用，转而使用模块级变量。
将全局变量组织到字典或类中，以提高可读性和可维护性。
始终记录全局变量的用途，并通过测试验证其行为。

实例演示

考虑以下代码：

# 定义全局变量
if __name__ == '__main__':
    global_var = 42

# 使用 `ProcessPoolExecutor`
with ProcessPoolExecutor() as executor:
    executor.submit(lambda: print(global_var))  # 导致 NameError

由于 global_var 在 if __name__ == '__main__': 之后定义，因此在子进程中无法访问它。要解决此问题，将变量声明移动到 if __name__ == '__main__': 之前：

# 定义全局变量
global_var = 42

# 使用 `ProcessPoolExecutor`
with ProcessPoolExecutor() as executor:
    executor.submit(lambda: print(global_var))  # 正常打印 42