自定义 PDF 切图工具，让您轻松分割和转换 PDF 文档

2022-12-03 16:39:53

在处理大量文档时，经常遇到需要对 PDF 文件进行切片和转换的情况。例如，当一个大型会议的报告需要被打印成独立的小册子，或者客户希望获得文件中的特定页面作为图片格式。这些任务如果没有合适的工具支持，会变得相当繁琐。

解决方案：构建自定义 PDF 切图工具

选择合适的技术栈

为了创建这样的工具，可以选用 Python 语言结合 PyPDF2 和 PIL (Pillow) 库。PyPDF2 支持读取和操作 PDF 文件，而 PIL 能够处理图片相关的任务。

安装依赖

在开始编码前，确保已正确安装所需的库。

pip install pypdf2 pillow

分割 PDF 文档

分割 PDF 的目的是将一个大的文档拆分成多个较小的部分。每个部分可以是单个页面或指定范围的页面。

代码示例

from PyPDF2 import PdfReader, PdfWriter

def split_pdf(input_path, output_prefix):
    reader = PdfReader(input_path)
    for page_num in range(len(reader.pages)):
        writer = PdfWriter()
        writer.add_page(reader.pages[page_num])
        output_path = f"{output_prefix}_page{page_num + 1}.pdf"
        with open(output_path, "wb") as output_file:
            writer.write(output_file)

split_pdf("example.pdf", "output")

这段代码会根据指定的 PDF 文件路径读取文件，然后遍历每个页面，并将它们分别保存为单独的 PDF 文档。

将 PDF 转换为图片

有时候需要将文档中的信息以图像形式展示。这可以通过提取 PDF 页面并将其转换成 PNG 或 JPG 等格式实现。

代码示例

from PyPDF2 import PdfReader
import io
from PIL import Image

def convert_pdf_to_images(pdf_path, output_prefix):
    reader = PdfReader(pdf_path)
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        image_data = page.extract_image(0)['image']
        img = Image.open(io.BytesIO(image_data))
        img.save(f"{output_prefix}_page{page_num + 1}.png")

convert_pdf_to_images("example.pdf", "output")