Scrapy框架入门：踏入公交信息爬取的奇妙世界

2024-01-06 17:19:57

数据挖掘的利器：Scrapy框架

踏上数据爬取的旅程：
在信息爆炸的时代，互联网犹如浩瀚的大海，蕴藏着海量的宝贵数据。数据爬取技术应运而生，帮助我们从网页中轻松获取所需的信息，从新闻、天气到商品价格和社交媒体动态，无所不包。而Scrapy框架，正是数据挖掘领域不可或缺的利器。

Scrapy框架：数据爬取的利刃
Scrapy是一个基于Python的强大框架，专为数据爬取而设计。它提供了丰富的工具和功能，让开发者能够轻松编写爬虫程序，从各种网站中获取数据。

实战演练：北京公交信息爬取
为了亲身体验Scrapy框架的魅力，我们以北京公交信息网为例，带领大家一步步完成公交信息的爬取。

目标网站：
https://www.bjbus.com/

代码实现：

创建项目：

scrapy startproject bus_info

编写爬虫类：
在项目目录下创建spiders目录，在该目录下创建bus_spider.py文件，编写爬虫类。

import scrapy

class BusSpider(scrapy.Spider):
    name = "bus_spider"
    allowed_domains = ["bjbus.com"]
    start_urls = ["https://www.bjbus.com/"]

    def parse(self, response):
        # 在这里编写数据解析逻辑

数据解析：
使用XPath或CSS选择器定位并提取目标数据。

import scrapy

class BusSpider(scrapy.Spider):
    name = "bus_spider"
    allowed_domains = ["bjbus.com"]
    start_urls = ["https://www.bjbus.com/"]

    def parse(self, response):
        for bus_line in response.xpath("//div[@class='bus-line']"):
            line_name = bus_line.xpath(".//h2/text()").extract_first()
            line_stops = bus_line.xpath(".//ul/li/text()").extract()
            yield {
                "line_name": line_name,
                "line_stops": line_stops
            }

数据存储：
将解析后的数据存储到文件中或数据库中。

import scrapy

class BusSpider(scrapy.Spider):
    name = "bus_spider"
    allowed_domains = ["bjbus.com"]
    start_urls = ["https://www.bjbus.com/"]

    def parse(self, response):
        for bus_line in response.xpath("//div[@class='bus-line']"):
            line_name = bus_line.xpath(".//h2/text()").extract_first()
            line_stops = bus_line.xpath(".//ul/li/text()").extract()
            yield {
                "line_name": line_name,
                "line_stops": line_stops
            }

    def close(self, spider):
        # 在爬虫结束后将数据存储到文件中
        with open('bus_lines.csv', 'w') as f:
            f.write('Line Name,Line Stops\n')
            for item in self.crawler.stats.get_value('item_scraped_count'):
                f.write(f"{item['line_name']},{','.join(item['line_stops'])}\n")