另辟蹊径：用 Pandas 爬取网页中的宝贵数据

人工智能

2023-12-05 14:13:54

从网页中提取表数据的无名英雄：pd.read_html()

当你需要从网页中获取表格式数据时，你可能会想到 pd.read_csv() 和 pd.read_excel() 等广受欢迎的函数。然而，还有一个同样强大但尚未得到充分利用的函数 - pd.read_html()。

想象一下，你正试图从一个包含宝贵数据的网页中获取信息，但是数据被困在一个或多个表中。手动提取数据可能既耗时又容易出错。这就是 pd.read_html() 发挥作用的地方。

pd.read_html()：从网页到 DataFrame

pd.read_html() 是一种将网页上的表数据转换为 Pandas DataFrame 列表的简单而高效的方法。它就像一个数据挖掘机，从 HTML 沙堆中提取有价值的结构化信息。

使用它就像在公园里散步一样简单：你只需提供目标网页的 URL，它就会为你完成繁重的工作。read_html() 会解析 HTML 代码，识别表元素，并创建包含每个表数据的单独 DataFrame。

多个表？没问题！

pd.read_html() 的一个惊人之处在于它可以轻松处理包含多个表的网页。它将为每个表创建一个单独的 DataFrame，让你可以轻松选择和操作特定的数据。这种灵活性对于从复杂网页中提取有针对性的信息非常有用。

代码示例

让我们通过一些代码示例来深入了解 pd.read_html() 的强大功能：

import pandas as pd

# 从包含单个表的网页中获取数据
url = "https://example.com/table.html"
tables = pd.read_html(url)
df = tables[0]

# 从包含多个表的网页中获取数据
url = "https://example.com/tables.html"
tables = pd.read_html(url)
for i, df in enumerate(tables):
    print(f"表 {i+1}:")
    print(df.head())