Python使用BeautifulSoup解析DOM树指南

2023-12-23 15:09:38

Beautiful Soup简介

Beautiful Soup 是一个用于解析HTML和XML文档的Python库。它是一种树状结构的解析器，可以把HTML或XML转换成一个树状结构，然后你就可以用Python来遍历这个树状结构来提取数据。Beautiful Soup支持多种解析器，默认使用lxml解析器，如果lxml没有安装，则使用html.parser解析器。

安装Beautiful Soup

使用pip命令可以轻松安装Beautiful Soup:

pip install beautifulsoup4

使用Beautiful Soup解析HTML

要使用Beautiful Soup解析HTML，首先需要创建一个BeautifulSoup对象。可以使用BeautifulSoup()函数来创建一个BeautifulSoup对象，该函数接受一个HTML字符串或一个指向HTML文档的URL。

from bs4 import BeautifulSoup

# 解析HTML字符串
html = '<html><head></head><body><h1>Hello, world!</h1></body></html>'
soup = BeautifulSoup(html, 'html.parser')

# 解析HTML文档
soup = BeautifulSoup(open('index.html'), 'html.parser')

Beautiful Soup将HTML解析成一个树状结构，其中每个节点都是一个BeautifulSoup对象。可以使用BeautifulSoup对象的各种属性和方法来提取数据。

提取数据

Beautiful Soup提供了多种方法来提取数据。最常用的方法是使用find()和findAll()方法。

# 查找第一个名为“h1”的标签
h1 = soup.find('h1')

# 查找所有名为“h1”的标签
h1s = soup.findAll('h1')

# 提取第一个名为“h1”的标签的文本
title = h1.text

# 提取所有名为“h1”的标签的文本
titles = [h1.text for h1 in h1s]