如何轻松迭代 HTML 网站中的所有“tr”部分（使用 BeautifulSoup）

2024-03-09 15:37:56

如何使用 BeautifulSoup 包中的 Python 代码迭代 HTML 网站的所有“tr”部分？

简介

在数据抓取过程中，迭代 HTML 网站的所有“tr”部分对于提取和分析表格数据至关重要。本文将指导您如何使用 BeautifulSoup 包轻松高效地完成此操作。

使用 BeautifulSoup 迭代“tr”部分

以下步骤介绍了如何使用 BeautifulSoup 包迭代 HTML 网站的所有“tr”部分：

导入 BeautifulSoup: 导入 BeautifulSoup 库并创建 BeautifulSoup 对象以解析 HTML 文档。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

定位表格: 使用 find() 或 find_all() 方法定位 HTML 表格。

table = soup.find('table')

迭代“tr”部分: 使用 find_all() 方法迭代表格中的所有“tr”部分。

rows = table.find_all('tr')

提取数据: 现在，您可以使用子选择器（如 .find()) 提取每个“tr”部分中的所需数据。

for row in rows:
    # 提取每一行的数据

解决多“thead”问题

如果您在迭代“tr”部分时遇到问题，因为 HTML 表格有多个“thead”部分，可以通过以下方式解决：

确定“tbody”部分: 查找包含您想要抓取数据的“tr”部分的“tbody”部分。

tbody = table.find('tbody')

迭代“tr”部分: 现在，您可以使用 find_all() 方法仅迭代“tbody”部分中的“tr”部分。

rows = tbody.find_all('tr')

示例代码

以下是使用 BeautifulSoup 包迭代 HTML 网站所有“tr”部分的示例代码：

from bs4 import BeautifulSoup

# 载入 HTML 文档
html_doc = '<html><body><table><thead><tr><th>Name</th><th>Age</th></tr></thead><tbody><tr><td>John</td><td>30</td></tr><tr><td>Mary</td><td>25</td></tr></tbody></table></body></html>'

# 解析 HTML 文档
soup = BeautifulSoup(html_doc, 'html.parser')

# 找到表格
table = soup.find('table')

# 找到“tbody”部分
tbody = table.find('tbody')

# 迭代“tr”部分
for row in tbody.find_all('tr'):
    name = row.find('td').text
    age = row.find_all('td')[1].text
    print(f"Name: {name}, Age: {age}")