PyPDF2 库的基本使用：实现高效自动化办公

2023-11-27 21:27:18

好的，以下是关于 PyPDF2 库基本使用的文章，希望能对您有所帮助。

1. PyPDF2 库简介

PyPDF2 库是一个功能强大的 Python 库，可用于处理 PDF 文件。它提供了许多有用的函数和方法，可以轻松实现 PDF 文件的合并、拆分、页面提取、文本提取、水印添加和密码加密等操作。PyPDF2 库的使用非常简单，只需要导入库并调用相应的函数即可。

2. PyPDF2 库基本使用方法

2.1 读取 PDF 文件

import PyPDF2

# 打开要读取的 PDF 文件
pdf_file = open('test.pdf', 'rb')

# 创建一个 PDF 阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取 PDF 文件的页数
num_pages = pdf_reader.getNumPages()

# 遍历 PDF 文件的每页
for i in range(num_pages):
    # 获取当前页的页面对象
    page_object = pdf_reader.getPage(i)

    # 获取当前页的文本内容
    text = page_object.extractText()

    # 打印当前页的文本内容
    print(text)

# 关闭 PDF 文件
pdf_file.close()

2.2 合并 PDF 文件

import PyPDF2

# 打开要合并的 PDF 文件
pdf_file1 = open('test1.pdf', 'rb')
pdf_file2 = open('test2.pdf', 'rb')

# 创建一个新的 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()

# 将要合并的 PDF 文件添加到写入器对象中
pdf_writer.addPage(pdf_reader1.getPage(0))
pdf_writer.addPage(pdf_reader2.getPage(0))

# 将合并后的 PDF 文件写入到磁盘中
with open('merged.pdf', 'wb') as pdf_output_file:
    pdf_writer.write(pdf_output_file)

# 关闭 PDF 文件
pdf_file1.close()
pdf_file2.close()

2.3 拆分 PDF 文件

import PyPDF2

# 打开要拆分的 PDF 文件
pdf_file = open('test.pdf', 'rb')

# 创建一个新的 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()

# 将要拆分的 PDF 文件的每页添加到写入器对象中
for i in range(pdf_reader.getNumPages()):
    pdf_writer.addPage(pdf_reader.getPage(i))

# 将拆分后的 PDF 文件写入到磁盘中
for i in range(pdf_reader.getNumPages()):
    with open('split_{}.pdf'.format(i), 'wb') as pdf_output_file:
        pdf_writer.write(pdf_output_file)

# 关闭 PDF 文件
pdf_file.close()

2.4 提取 PDF 文件的文本内容

import PyPDF2

# 打开要提取文本的 PDF 文件
pdf_file = open('test.pdf', 'rb')

# 创建一个 PDF 阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取 PDF 文件的文本内容
text = pdf_reader.getPage(0).extractText()

# 打印 PDF 文件的文本内容
print(text)

# 关闭 PDF 文件
pdf_file.close()

2.5 向 PDF 文件添加水印

import PyPDF2

# 打开要添加水印的 PDF 文件
pdf_file = open('test.pdf', 'rb')

# 创建一个 PDF 阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 创建一个新的 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()

# 将要添加水印的 PDF 文件的每页添加到写入器对象中
for i in range(pdf_reader.getNumPages()):
    page_object = pdf_reader.getPage(i)

    # 创建一个水印对象
    watermark = PyPDF2.Watermark(
        'Watermark', 
        font_size=24, 
        font_color=(255, 255, 255),
        opacity=0.5
    )

    # 将水印添加到页面中
    page_object.mergePage(watermark)

    # 将修改后的页面添加到写入器对象中
    pdf_writer.addPage(page_object)

# 将添加了水印的 PDF 文件写入到磁盘中
with open('watermarked.pdf', 'wb') as pdf_output_file:
    pdf_writer.write(pdf_output_file)

# 关闭 PDF 文件
pdf_file.close()

2.6 为 PDF 文件加密

import PyPDF2

# 打开要加密的 PDF 文件
pdf_file = open('test.pdf', 'rb')

# 创建一个 PDF 阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 创建一个新的 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()

# 将要加密的 PDF 文件的每页添加到写入器对象中
for i in range(pdf_reader.getNumPages()):
    page_object = pdf_reader.getPage(i)

    # 为页面设置密码
    page_object.encrypt('password')

    # 将修改后的页面添加到写入器对象中
    pdf_writer.addPage(page_object)

# 将加密后的 PDF 文件写入到磁盘中
with open('encrypted.pdf', 'wb') as pdf_output_file:
    pdf_writer.write(pdf_output_file)

# 关闭 PDF 文件
pdf_file.close()