用Scrapy中转运你的selenium的webdriver

2023-12-18 08:42:33

Selenium和ChromeDriver/FirefoxDriver
Selenium是一种功能齐全的web应用自动化测试工具，可以对web端程序进行自动化的测试，比如打开页面、查找元素、提交表单、判断元素是否存在、对元素内容进行操作等等，堪称爬虫必备工具之一。

由于Selenium基于ChromeDriver或FirefoxDriver进行浏览器的控制，因此需要确保在使用Selenium前，已按照相关说明正确地安装了浏览器的驱动程序。

安装完成以后，就可以利用Selenium对webdriver进行操作了。webdriver的常用用法如下：

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.example.com")

用上述方法，就可以打开一个浏览器窗口并访问指定的URL。

编写中间件类

将Selenium应用到Scrapy中需要创建一个中间件类。Scrapy提供了三种中间件，分别是下载器中间件、爬虫中间件和蜘蛛中间件。它们分别用于处理下载请求、管理爬虫和处理蜘蛛。

其中，下载器中间件适用于与下载器相关的任务，例如修改请求或响应。因此，为了使用Selenium，需要创建一个下载器中间件。

import scrapy
from selenium import webdriver

class SeleniumMiddleware(scrapy.DownloadMiddleware):

    def __init__(self):
        self.driver = webdriver.Chrome()

    def process_request(self, request, spider):
        self.driver.get(request.url)
        return scrapy.http.HtmlResponse(url=request.url, body=self.driver.page_source, encoding='utf-8')

这个中间件类使用process_request方法对请求进行处理。它首先使用Selenium打开指定的URL，然后将结果作为scrapy.http.HtmlResponse对象返回。

在Scrapy中启用中间件

将Selenium中间件应用到Scrapy中，需要在Scrapy的配置文件中进行配置。在settings.py文件中，找到DOWNLOADER_MIDDLEWARES设置，并在其下添加以下内容：

DOWNLOADER_MIDDLEWARES = {
    'scrapy_selenium.SeleniumMiddleware': 543,
}

这样，Selenium中间件就可以在Scrapy中使用了。

使用Selenium中间件爬取数据

接下来，就可以使用Selenium中间件来爬取数据了。在Scrapy的爬虫文件中，可以使用scrapy.Request方法发送请求，并使用self.driver.get(request.url)打开页面。

import scrapy
from scrapy_selenium import SeleniumRequest

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://www.example.com']

    def parse(self, response):
        driver = self.driver
        driver.get(response.url)
        # 从页面中提取数据