Python网络解析库Xpath，爬虫从此易如反掌！

见解分享

2023-11-02 11:39:06

你好！在上一章中，我们学会了如何使用Python网络请求库Requests来抓取网页上的内容。现在，我们来看看如何使用Xpath来解析这些内容。

Xpath 是一种用于从XML文档中提取数据的语言。它与HTML非常相似，因此也可以用于从HTML文档中提取数据。

我们先来看看Xpath的语法。Xpath表达式由两部分组成：

路径表达式：用于指定要提取的数据所在的节点。
谓词表达式：用于对路径表达式进行过滤，只提取符合条件的节点。

路径表达式由以下部分组成：

轴：指定要搜索的节点与当前节点的关系。例如，"child::"表示当前节点的子节点，"parent::"表示当前节点的父节点。
节点名称 ：指定要搜索的节点的名称。例如，"div"表示要搜索div节点。
谓词表达式 ：用于对路径表达式进行过滤，只提取符合条件的节点。例如，"@class='content'"表示只提取具有class属性值为"content"的节点。

下面我们来看几个例子：

//div ：选择所有div节点。
//div[@class='content'] ：选择所有具有class属性值为"content"的div节点。
//div/p ：选择所有div节点的子p节点。
//div/p[1] ：选择所有div节点的第一个子p节点。

现在我们已经知道了Xpath的语法，接下来我们就来看看如何使用它来解析HTML文档。

首先，我们需要使用Requests库来抓取网页上的内容。
然后，我们可以使用BeautifulSoup库来将HTML文档转换为一个树形结构。
最后，我们就可以使用Xpath来从树形结构中提取我们想要的数据。

下面我们来看一个例子：

import requests
from bs4 import BeautifulSoup

# 抓取网页上的内容
response = requests.get("https://www.example.com")

# 将HTML文档转换为一个树形结构
soup = BeautifulSoup(response.text, "html.parser")

# 使用Xpath提取数据
results = soup.select("//div[@class='content']/p")

# 打印结果
for result in results:
    print(result.text)