如何轻松实现 Python 中的 PDF 图像提取？

见解分享

2023-12-11 02:43:00

从 PDF 中提取图像：掌握图像处理的强大功能

在现代数字世界中，PDF 文件已成为共享和分发文档的常用格式。然而，这些文件经常包含图像和其他复杂元素，从 PDF 中提取这些图像对于各种任务至关重要，例如图像处理、文档归档和数据挖掘。

利用 Python 库的强大功能

幸运的是，通过利用功能强大的 Python 库，我们可以轻松实现从 PDF 中提取图像的任务。两种流行的选择是 PyMuPDF 和 PIL（Python Imaging Library）。

方法 1：使用 PyMuPDF

PyMuPDF 是一个专用于处理 PDF 文档的强大 Python 库。它的直观 API 使图像提取变得轻而易举。

步骤：

导入必要的库：

import fitz

打开 PDF 文档：

doc = fitz.open("input.pdf")

遍历页面，提取图像：

for page in doc:
    images = page.get_images()
    for image in images:
        image_data = image["image"]
        with open(f"image_{image['xref']}.png", "wb") as f:
            f.write(image_data)

方法 2：使用 PIL

PIL 是另一个广泛用于图像处理的 Python 库。我们可以结合使用 PyPDF2 库来从 PDF 中提取图像。

步骤：

导入必要的库：

import PyPDF2
from PIL import Image

打开 PDF 文档：

pdf_file = open("input.pdf", "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

遍历页面，提取图像：

for page_num in range(pdf_reader.numPages):
    page_object = pdf_reader.getPage(page_num)
    page_content = page_object.extractText()
    image_objects = page_object.extractImages()
    for image_name, image_data in image_objects.items():
        image = Image.open(BytesIO(image_data))
        image.save(f"image_{image_name}.png")