记录Python的Scrapy爬虫 —— 房天下

2023-10-13 13:52:04

使用 Scrapy 挖掘房天下数据：一个分步指南

环境准备

在踏上数据挖掘之旅之前，请确保已配备以下必备武器：

Python 3.6 及以上版本
Scrapy 1.8 及以上版本
Visual C++ Build Tools
pywin32
Twisted

安装 Scrapy

首先，让我们用 pip 命令安装 Scrapy：

pip install scrapy

安装 pywin32 和 Twisted

对于 Python 3.6，我们使用 Visual C++ Build Tools 来安装 C 语言编译环境。然后，我们可以使用以下命令安装 pywin32 和 Twisted：

pip install pywin32
pip install Twisted

编写爬虫脚本

现在，让我们编写一个名为“spider.py”的爬虫脚本：

import scrapy

class FangtianxiaSpider(scrapy.Spider):
    name = "fangtianxia"
    allowed_domains = ["fang.com"]
    start_urls = ["https://www.fang.com/SoufunFamily.htm"]

    def parse(self, response):
        # 解析页面中的房屋信息
        for house in response.css("div.house-list"):
            yield {
                "title": house.css("a.house-title::text").get(),
                "price": house.css("span.house-price::text").get(),
                "area": house.css("span.house-area::text").get(),
                "room": house.css("span.house-room::text").get(),
                "hall": house.css("span.house-hall::text").get(),
                "toilet": house.css("span.house-toilet::text").get(),
                "direction": house.css("span.house-direction::text").get(),
                "floor": house.css("span.house-floor::text").get(),
                "year": house.css("span.house-year::text").get(),
            }

        # 解析页面中的下一页链接
        next_page_url = response.css("a.next::attr(href)").get()
        if next_page_url is not None:
            yield scrapy.Request(next_page_url, callback=self.parse)