下班了，学一点Python爬虫吧——第7天基本库urllib使用（解析链接）

2024-01-17 05:26:06

前言

在学习了 urllib 中 cookie 和异常处理的基础知识后，我们现在将深入了解该库的另一重要方面：解析链接。

解析链接

urllib 库提供了多种方法来解析和操作 URL。以下是一些最常用的方法：

urlparse()：将 URL 分解为其各个组成部分，如方案、主机和路径。
urlunparse()：将 URL 的各个组成部分重新组合成一个完整的 URL。
urljoin()：将两个 URL 连接起来，创建一个新的 URL。

这些方法对于处理和操作网络上的 URL 非常有用。让我们看一个示例，了解如何使用 urlparse() 函数：

from urllib.parse import urlparse

url = 'https://www.example.com/page/1'

# 解析 URL
parsed_url = urlparse(url)

# 访问 URL 的各个部分
print(parsed_url.scheme)  # https
print(parsed_url.netloc)  # www.example.com
print(parsed_url.path)  # /page/1

使用BeautifulSoup 解析 HTML

BeautifulSoup 是一个流行的 Python 库，用于解析和遍历 HTML 和 XML 文档。它提供了许多有用的方法来查找、提取和操作 HTML 元素。

要使用 BeautifulSoup 解析 HTML，首先需要安装该库：

pip install beautifulsoup4

然后，您可以使用以下步骤解析 HTML：

from bs4 import BeautifulSoup

# 获取 HTML 内容
html = '<!DOCTYPE html><html><body><h1>Hello, world!</h1></body></html>'

# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html, 'html.parser')

# 查找标题元素
heading = soup.find('h1')

# 打印标题的文本
print(heading.text)  # Hello, world!