Requests 库分块下载大文件：避免内存不足

2024-03-09 09:17:48

使用 Requests 库分块下载大文件

引言

对于软件工程师来说，下载大文件是一个常见的任务。通常，人们使用 Requests 库从网站获取数据。然而，当文件大小超过 1GB 时，使用默认方法可能会遇到内存不足的问题。本文将介绍如何利用 Requests 库分块下载大文件，从而避免内存问题。

分块下载法

分块下载法是一种流式下载技术，它将大文件分成较小的块，然后逐块下载并保存到本地硬盘上。这种方法避免了将整个文件加载到内存中的需要，从而使下载大文件成为可能。

实施步骤

发送 GET 请求： 使用 Requests 库向目标文件 URL 发送 GET 请求。
打开二进制文件用于写入： 打开一个与请求响应关联的二进制文件，以便以写入模式保存文件内容。
流式下载： 使用 iter_content() 方法以块大小为参数开始流式下载文件。这将以块为单位检索文件内容，从而避免在内存中加载整个文件。
将块写入文件： 对于每个检索到的块，检查它是否为空（这表示保持连接的新块），然后将其写入打开的文件。
关闭文件： 下载完成后，关闭打开的文件以释放系统资源。

示例代码

import requests

def download_file(url, local_filename):
    # 发送 GET 请求
    response = requests.get(url, stream=True)

    # 打开二进制文件用于写入
    with open(local_filename, 'wb') as f:
        # 流式下载文件
        for chunk in response.iter_content(chunk_size=512 * 1024):
            if chunk:  # 过滤掉保持连接的新块
                f.write(chunk)

    # 关闭文件
    f.close()