用 Python 从 PDF 中巧妙提取表格

2023-10-18 21:51:06

前言

PDF（便携式文档格式）是一种广泛用于共享和存储文档的通用文件格式。虽然 PDF 以其可移植性和易于查看而闻名，但从 PDF 中提取数据有时可能会很困难，尤其是当数据以表格形式呈现时。

认识 pdfplumber

pdfplumber 是一个开源的 Python 库，专门用于从 PDF 文档中提取文本和表格数据。它以其直观且用户友好的界面以及强大的功能而著称。

安装 pdfplumber

要开始使用 pdfplumber，首先需要在你的 Python 环境中安装它。你可以使用以下命令通过 pip 安装库：

pip install pdfplumber

从 PDF 中提取表格

使用 pdfplumber 从 PDF 中提取表格的过程非常简单。以下是分步说明：

导入库： 导入 pdfplumber 库。

import pdfplumber

打开 PDF 文件： 使用 open() 函数打开目标 PDF 文件。

with pdfplumber.open("path/to/file.pdf") as pdf:

获取页面： 获取包含表格的 PDF 页面。

page = pdf.pages[0]

提取表格： 使用 extract_tables() 方法提取页面上的所有表格。

tables = page.extract_tables()

处理表格： 提取的表格存储在列表中。你可以迭代这个列表来处理每个表格。

示例代码

下面的代码示例演示了如何使用 pdfplumber 从 PDF 中提取表格：

import pdfplumber

with pdfplumber.open("path/to/file.pdf") as pdf:
    page = pdf.pages[0]
    tables = page.extract_tables()

    for table in tables:
        for row in table:
            for cell in row:
                print(cell)

处理提取的表格

提取表格后，你可以进一步处理数据。例如，你可以：

将表格数据导出到 CSV 或 JSON 格式
使用 Pandas 库将表格数据加载到数据框中以进行分析和可视化
使用正则表达式从单元格中提取特定信息

结论

使用 pdfplumber 从 PDF 中提取表格是一种简单而有效的方法。通过利用库的强大功能，你可以轻松地自动化数据提取任务并从 PDF 文档中获取有价值的信息。无论你是处理业务文档还是进行研究，pdfplumber 都将为你提供宝贵的帮助。

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号

用 Python 从 PDF 中巧妙提取表格

Kyle

玩游戏不是梦！用深度Q网络开启你的强化学习之旅

ChatGPT向世界开放了这个充满可能性的潘多拉魔盒

从DB-GPT到Google Bard：知识库问答系统的新时代

对话式人工智能新时代：Next.js中ChatGPT API引领交互革命

深度学习框架、批量归一化与超参数调优：深度学习的秘籍