Scrapy框架在豆瓣电影Top250电影信息获取中的应用

2023-10-04 21:31:46

Scrapy是一个开源的Python网络抓取框架，可以轻松地抓取网站数据，并提供了丰富的功能和扩展性，使抓取过程更加轻松、高效。下面，我们就以Scrapy框架为工具，来获取豆瓣电影Top250电影的信息。

一、Scrapy框架安装

Scrapy框架的安装很简单，只需要使用pip命令即可：

pip install Scrapy

安装完成后，就可以使用Scrapy命令来创建项目和爬虫了。

二、创建Scrapy项目

创建Scrapy项目，可以使用如下命令：

scrapy startproject DoubanTop250

这将创建一个名为DoubanTop250的项目，其中包含一些基本的Scrapy文件，如settings.py、items.py和spiders/目录等。

三、创建Scrapy爬虫

在DoubanTop250项目中，创建一个名为DoubanTop250Spider的爬虫，可以使用如下命令：

scrapy genspider DoubanTop250Spider www.douban.com/top250

这将创建一个名为DoubanTop250Spider的爬虫，并指定起始URL为www.douban.com/top250。

四、编写Scrapy爬虫代码

在DoubanTop250Spider爬虫中，需要编写代码来抓取豆瓣电影Top250电影的信息。具体代码如下：

import scrapy


class DoubanTop250Spider(scrapy.Spider):
    name = 'doubantop250'
    allowed_domains = ['douban.com']
    start_urls = ['https://www.douban.com/top250']

    def parse(self, response):
        for movie in response.css('ol.grid_view li'):
            item = DoubanTop250Item()
            item['title'] = movie.css('div.hd a span::text').extract_first()
            item['score'] = movie.css('div.star .rating_num::text').extract_first()
            item['director'] = movie.css('div.bd p:nth-child(1) a::text').extract()
            item['actors'] = movie.css('div.bd p:nth-child(2) a::text').extract()
            item['year'] = movie.css('div.bd p:nth-child(3)::text').extract_first().split('/')[0]
            yield item