别让反爬束手无策！解密Selenium自动化爬取网站的成功秘诀

2023-12-22 04:06:31

反爬虫策略：让 Selenium 突破反爬虫障碍

在数字时代的丛林中，网络爬虫和反爬虫展开了一场无休止的猫捉老鼠游戏。 Selenium 作为网络爬取的利器，也不可避免地成为反爬虫的靶子。然而，掌握了正确的反制策略，就能让反爬虫束手无策，让 Selenium 的自动化爬取畅行无阻。

釜底抽薪：从本质上化解反爬虫威胁

反爬虫检测通常依赖于浏览器中运行的 JavaScript 脚本，从而识别 Selenium 的存在。因此，破解反爬虫的关键在于从根源入手，让 Selenium 不易被检测到。

伪装 User-Agent

User-Agent 是浏览器向服务器发送的请求头信息，包含了浏览器类型、版本等数据。反爬虫往往会根据 User-Agent 来识别 Selenium。我们可以通过伪装 User-Agent，让 Selenium 伪装成普通浏览器。

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.63 Safari/537.36')

driver = webdriver.Chrome(options=options)

禁用检测脚本

反爬虫检测脚本通常会嵌入到网站的 HTML 代码中，在页面加载时自动运行。我们可以通过禁用 JavaScript，或者使用反检测脚本来阻止反爬虫检测脚本的运行。

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

capabilities = DesiredCapabilities.CHROME
capabilities['javascriptEnabled'] = False

driver = webdriver.Chrome(desired_capabilities=capabilities)

模拟人类行为

反爬虫还会通过分析用户行为来识别 Selenium。因此，我们可以模拟人类行为，例如在页面上停留一定时间，点击链接、输入文字等，让 Selenium 的行为看起来更像一个真人。

from selenium.webdriver.common.action_chains import ActionChains
from time import sleep

driver.get('https://example.com')
actions = ActionChains(driver)

# 点击链接
actions.click(driver.find_element_by_link_text('Login')).perform()
sleep(1)

# 输入文字
actions.send_keys_to_element(driver.find_element_by_id('username'), 'username').perform()
actions.send_keys_to_element(driver.find_element_by_id('password'), 'password').perform()
sleep(1)

# 提交表单
actions.click(driver.find_element_by_css_selector('button[type="submit"]')).perform()

障眼法：巧用浏览器驱动让 Selenium 更隐蔽

除了上述方法，我们还可以利用浏览器驱动来让 Selenium 更加隐蔽。浏览器驱动是 Selenium 控制浏览器的一种方式，它可以帮助 Selenium 模拟人类操作浏览器。

无头浏览器

无头浏览器是一种没有图形界面的浏览器，它可以运行在后台，不会弹出窗口。使用无头浏览器，可以减少 Selenium 被检测到的风险。

from selenium.webdriver.chrome.options import Options

options = Options()
options.headless = True

driver = webdriver.Chrome(options=options)

远程浏览器

远程浏览器是一种在远程服务器上运行的浏览器，它可以通过 Selenium 控制。使用远程浏览器，可以将 Selenium 和目标网站隔离开，降低被检测到的可能性。

from selenium.webdriver.remote.webdriver import WebDriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

capabilities = DesiredCapabilities.CHROME
capabilities['browserName'] = 'chrome'
capabilities['platform'] = 'LINUX'
capabilities['version'] = '102.0.5005.63'
capabilities['webdriver.remote.sessionid'] = 'abc123'

driver = WebDriver(command_executor='http://localhost:4444/wd/hub', desired_capabilities=capabilities)