如何使用 Selenium WebDriver 高效检测无限滚动页面加载完成？

2024-03-10 05:55:14

如何使用 Selenium WebDriver 优雅地检测无限滚动页面加载完成

在使用 Selenium WebDriver 爬取无限滚动页面时，我们经常面临页面内容不断加载的问题，这使得传统的基于 time.sleep() 的滚动方式变得低效。为了提高爬取效率，我们可以使用 Selenium WebDriver 提供的 execute_async_script() 方法来检测页面何时加载完成。

检测原理

execute_async_script() 允许我们在页面加载期间执行 JavaScript 代码，并等待其结果返回。我们可以编写一个 JavaScript 函数来监听页面的加载事件，并在页面加载完成后返回一个信号。

代码示例

以下是检测无限滚动页面加载完成的 Python 代码示例：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.get("https://example.com")

# 滚动页面到最底部
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

# 等待页面加载完成
element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.CSS_SELECTOR, ".loading-indicator"))
)

# 确认页面加载完成
if element.get_attribute("style") == "display: none;":
    print("页面加载完成")

在这个示例中，我们首先使用 execute_script() 方法将页面滚动到最底部。然后，我们使用 WebDriverWait 和 expected_conditions.presence_of_element_located() 来等待页面加载完成的指示元素出现。一旦指示元素出现，我们就可以确认页面加载完成了。