利用Python掌控PDF，实现轻松拆分合并

后端

2023-09-16 06:27:33

纵览Python PDF操作库

在开始操作之前，让我们先认识一下两个强大的Python库：

PyPDF2：这个库可以轻松合并和拆分PDF文档，还可以提取文本信息。
pdfplumber：这个库可以提取PDF文档中的表格和图片。

有了这两个库的助力，你就能完成各种PDF操作，包括：

拆分PDF文档： 将一个PDF文档拆分成多个较小的文档，以便于管理和分享。
合并PDF文档： 将多个较小的PDF文档合并成一个更大的文档，以便于存储和检索。
提取PDF文本： 将PDF文档中的文字内容提取出来，以便于进一步处理。
提取PDF表格： 将PDF文档中的表格内容提取出来，以便于进行数据分析和处理。
提取PDF图片： 将PDF文档中的图片内容提取出来，以便于存储和使用。

拆分PDF文档

拆分PDF文档是件非常简单的事情，只需几行代码即可完成：

import PyPDF2

# 打开需要拆分的PDF文档
pdf_file_obj = open('original.pdf', 'rb')

# 创建一个PDF阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file_obj)

# 获取PDF文档的总页数
num_pages = pdf_reader.getNumPages()

# 循环每个页面，将它们保存为单独的PDF文件
for i in range(num_pages):
    pdf_writer = PyPDF2.PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(i))

    with open('page_%s.pdf' % i, 'wb') as output_file:
        pdf_writer.write(output_file)

# 关闭PDF文件对象
pdf_file_obj.close()

合并PDF文档

合并PDF文档同样简单，只需要几行代码即可完成：

import PyPDF2

# 创建一个PDF写入器对象
pdf_writer = PyPDF2.PdfFileWriter()

# 打开需要合并的PDF文档
for i in range(num_pages):
    pdf_file_obj = open('page_%s.pdf' % i, 'rb')
    pdf_reader = PyPDF2.PdfFileReader(pdf_file_obj)
    pdf_writer.addPage(pdf_reader.getPage(0))
    pdf_file_obj.close()

# 将合并后的PDF文档保存到新文件中
with open('merged.pdf', 'wb') as output_file:
    pdf_writer.write(output_file)

提取PDF文本

提取PDF文档中的文字内容也很简单，只需要几行代码即可完成：

import PyPDF2

# 打开需要提取文本的PDF文档
pdf_file_obj = open('document.pdf', 'rb')

# 创建一个PDF阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file_obj)

# 获取PDF文档的总页数
num_pages = pdf_reader.getNumPages()

# 循环每个页面，将它们提取出来
for i in range(num_pages):
    page_obj = pdf_reader.getPage(i)
    text = page_obj.extractText()
    print(text)

# 关闭PDF文件对象
pdf_file_obj.close()

提取PDF表格

提取PDF文档中的表格内容也同样简单，只需要几行代码即可完成：

import pdfplumber

# 打开需要提取表格的PDF文档
pdf_file_obj = open('document.pdf', 'rb')

# 创建一个PDF阅读器对象
pdf_reader = pdfplumber.load(pdf_file_obj)

# 获取PDF文档的总页数
num_pages = len(pdf_reader.pages)

# 循环每个页面，将它们提取出来
for i in range(num_pages):
    page_obj = pdf_reader.pages[i]
    tables = page_obj.extract_tables()
    print(tables)

# 关闭PDF文件对象
pdf_file_obj.close()

提取PDF图片

提取PDF文档中的图片内容同样简单，只需要几行代码即可完成：

import pdfplumber

# 打开需要提取图片的PDF文档
pdf_file_obj = open('document.pdf', 'rb')

# 创建一个PDF阅读器对象
pdf_reader = pdfplumber.load(pdf_file_obj)

# 获取PDF文档的总页数
num_pages = len(pdf_reader.pages)

# 循环每个页面，将它们提取出来
for i in range(num_pages):
    page_obj = pdf_reader.pages[i]
    images = page_obj.extract_images()
    for image in images:
        image.save('image_%s.png' % i)

# 关闭PDF文件对象
pdf_file_obj.close()