用Python Scrapy框架+Xpath轻松爬取当当网站图书数据

后端

2022-11-11 10:43:48

利用 Scrapy 和 XPath 构建当当网书包商品爬虫：详解教程

简介

在当今数据驱动的时代，网页爬虫已成为获取和分析宝贵信息的强有力工具。本教程将引导你使用 Scrapy 框架和 XPath 信息提取方法构建一个当当网书包商品爬虫。通过分步指南和示例代码，我们将了解如何提取特定搜索结果页面中的商品信息。

Scrapy 框架：网页爬虫之选

Scrapy 是一个强大的 Python 框架，专为网页爬虫而设计。它提供了易于使用的 API、强大的可扩展性以及丰富的功能，如 URL 管理、数据解析和数据库支持。借助 Scrapy，我们可以轻松地从网页中提取所需数据。

XPath：高效的信息提取

XPath 是一种灵活的信息提取语言，用于在 XML 文档中查找和提取特定元素。它支持复杂的数据结构，使其能够从网页中提取广泛的信息，包括商品名称、价格和评论数。

构建商城商品信息网站和爬虫

1. 定义爬虫目标

首先，明确我们要爬取的目标数据。在本例中，我们将关注当当网书包搜索页面的商品信息，包括商品名称、价格、评论数等。

2. 设计爬虫结构

Scrapy 提供了 Item 类来表示要爬取的数据。我们可以定义一个 Item 类，其中包含商品名称、价格和评论数等属性。

3. 编写爬虫代码

使用 Spider 类定义爬虫行为。Spider 类包含爬取商品信息的方法。其中涉及使用 Scrapy 的请求和响应对象来获取网页并解析 HTML 内容。

4. 运行爬虫

使用 Scrapy 命令行工具运行爬虫。这将根据我们定义的规则自动提取数据。

5. 提取数据

一旦爬虫完成，我们可以使用 XPath 从爬取的 HTML 中提取所需信息。XPath 表达式提供了灵活的方法来定位和提取特定元素。

示例代码

import scrapy

class DangdangBookbagItem(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    comments = scrapy.Field()

class DangdangBookbagSpider(scrapy.Spider):
    name = "dangdang_bookbag"
    allowed_domains = ["dangdang.com"]
    start_urls = ["https://search.dangdang.com/?key=%E4%B9%A6%E5%8C%85&page_index=1"]

    def parse(self, response):
        for item in response.xpath('//ul[@id="component_59"]/li'):
            yield DangdangBookbagItem(
                name=item.xpath('.//a[@class="pic"]/@title').get(),
                price=item.xpath('.//span[@class="price_d"]/text()').get(),
                comments=item.xpath('.//a[@class="search_comment_num"]/text()').get()
            )

        next_page = response.xpath('//a[@class="next"]/@href').get()
        if next_page:
            yield scrapy.Request(next_page, callback=self.parse)