爬虫学习笔记（三）：Scrapy爬虫框架初体验

2023-10-21 11:32:55

1. 前言
在**spider_学习笔记02** 中，我们学习了如何使用Beautiful Soup来解析HTML文档，并且编写了一个简单的爬虫来抓取百度首页的新闻标题和链接。本期，我们将继续学习爬虫的相关知识，并介绍Scrapy这个功能强大的Python爬虫框架。

2. Scrapy简介
Scrapy是一个用Python语言编写的应用框架，专门用于抓取网页数据、提取结构性数据。Scrapy是一个封装的框架，包含请求调度、下载、解析、持久化等功能，并提供了丰富的组件和扩展，使爬虫开发更加轻松。

3. Scrapy架构
Scrapy的架构分为四层，从上到下分别是：

应用程序层：负责定义爬虫的逻辑，比如要抓取哪些URL、如何解析数据等。
框架层：负责管理爬虫的运行，包括调度请求、下载页面、解析数据、持久化数据等。
引擎层：负责与底层系统交互，包括网络请求、文件读写等。
库层：提供了丰富的组件和扩展，可以用于各种爬虫场景。

4. Scrapy组件
Scrapy的主要组件包括：

Engine：爬虫引擎，负责调度请求、下载页面、解析数据、持久化数据等。
Scheduler：请求调度器，负责管理要抓取的URL队列。
Downloader：下载器，负责下载页面。
Spider：爬虫，负责定义爬虫的逻辑。
Item：数据项，用于存储抓取到的数据。
Pipeline：数据管道，用于处理抓取到的数据，比如清洗数据、持久化数据等。

5. Scrapy项目创建
要创建一个Scrapy项目，只需要使用以下命令：

scrapy startproject scrapy_project

这将在当前目录下创建一个名为scrapy_project的新项目。

6. Scrapy基本使用方法
创建一个Scrapy爬虫非常简单，只需要创建一个Spider类，并重写几个方法即可。例如，要创建一个爬虫来抓取百度首页的新闻标题和链接，可以编写以下代码：

import scrapy

class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    allowed_domains = ['baidu.com']
    start_urls = ['https://www.baidu.com']

    def parse(self, response):
        news_titles = response.css('h3.c-title')
        news_links = response.css('h3.c-title a::attr(href)')

        for title, link in zip(news_titles, news_links):
            item = {
                'title': title.css('::text').get(),
                'link': link.get()
            }
            yield item