返回

自动化爬虫进阶:巧用Python + Selenium轻松抓取表格数据

人工智能

一、准备工作

  1. 安装必要的库
pip install selenium
pip install openpyxl
  1. 导入必要的库
import selenium
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from openpyxl import Workbook

二、代码实现

  1. 打开浏览器并访问目标网页
driver = webdriver.Chrome()
driver.get("https://www.example.com/table.html")
  1. 等待表格元素加载完成
WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, "table-id"))
)
  1. 获取表格数据
table = driver.find_element_by_id("table-id")
rows = table.find_elements_by_tag_name("tr")
  1. 将表格数据保存到Excel文件中
workbook = Workbook()
sheet = workbook.active
sheet.title = "表格数据"

for row in rows:
    cells = row.find_elements_by_tag_name("td")
    for cell in cells:
        sheet.cell(row=row.get_attribute("rowIndex"), column=cell.get_attribute("cellIndex")).value = cell.text

workbook.save("表格数据.xlsx")
  1. 关闭浏览器
driver.quit()

三、结语

通过以上步骤,我们就可以轻松利用Python + Selenium抓取表格数据并将其保存到Excel文件中。这种方法不仅可以提高数据收集效率,还能帮助我们更好地分析和利用数据。希望本教程对您有所帮助。