Beautiful Soup 4 入门指南

2023-12-15 09:27:01

Beautiful Soup 4 入门指南

什么是 BeautifulSoup 4？

Beautiful Soup 4 是一个功能强大的 Python 库，旨在从 HTML 和 XML 文档中提取数据。它专为从网络页面和文档中提取数据而设计，提供了一组简洁且易于使用的工具，可以帮助您轻松地解析和处理复杂网页。

安装 BeautifulSoup 4

安装 BeautifulSoup 4 非常简单，您可以通过以下命令安装：

pip install beautifulsoup4

解析器使用

Beautiful Soup 4 支持多种解析器，包括 HTML 解析器和 XML 解析器。您可以根据需要选择合适的解析器。

语法介绍

Beautiful Soup 4 提供了一系列用于解析 HTML 文档的函数和方法。其中，最常用的函数是 BeautifulSoup() 函数。您可以使用此函数将 HTML 文档解析为一个文档树，然后使用各种方法和属性来遍历和检索数据。

遍历文档树

Beautiful Soup 4 提供了多种方法来遍历文档树。您可以使用 find()、find_all()、select() 和 select_one() 等方法来查找和检索特定的元素。

搜索文档树

Beautiful Soup 4 还提供了多种方法来搜索文档树。您可以使用 find()、find_all()、select() 和 select_one() 等方法来查找和检索特定的元素。

示例

以下是使用 BeautifulSoup 4 抓取网页数据的示例：

from bs4 import BeautifulSoup

# 从网络页面抓取 HTML 内容
html_content = requests.get("https://example.com").text

# 使用 BeautifulSoup 解析 HTML 内容
soup = BeautifulSoup(html_content, "html.parser")

# 从文档树中查找所有标题元素
titles = soup.find_all("h1")

# 遍历并打印标题元素的文本
for title in titles:
    print(title.text)