用XPath轻松从网页中提取文本值：详细指南

2024-03-07 21:32:21

如何使用XPath高效提取网页文本

引言

XPath是一种强大的语言，用于在XML文档中查找和提取特定元素。网页通常使用HTML（超文本标记语言），本质上也是一种XML，因此XPath也可以用于从网页中提取数据。本文将深入探讨使用XPath从网页中获取文本值的方法，并提供一个逐步的示例代码，指导你完成整个过程。

从网页中获取文本值

获取网页中元素的文本值需要几个步骤：

导入必要的Selenium库： 使用Selenium库来与网页交互。
创建WebDriver实例并加载网页： 通过创建WebDriver实例并导航到目标网页来加载网页。
使用XPath查找目标元素： 使用XPath表达式查找要提取文本值的元素。
遍历元素并提取文本值： 遍历找到的元素并从每个元素中提取文本值。

代码示例

下面的示例代码示范了如何使用XPath从TripAdvisor网站中提取餐厅名称：

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

with open('restaurants.csv', 'w', encoding='utf-8') as file:
    file.write('name\n')

driver = webdriver.Chrome()
driver.get('https://www.tripadvisor.co.nz/Restaurants-g1811027-Auckland_North_Island.html')
time.sleep(3)

names = driver.find_elements(By.XPATH, "//div[@class='biGQs _P fiohW alXOW NwcxK GzNcM ytVPx UTQMg RnEEZ ngXxk']/a")

with open('restaurants.csv', 'a', encoding='utf-8') as file:
    for name in names:
        file.write(name.text + '\n')
file.close
driver.quit()