Scrapy框架的五大坑，踩雷注意

2023-10-18 09:00:56

Scrapy框架的5大陷阱，连踩两小时的“无效学习”

在今天之前，谈到爬虫软件，绝大多数的人几乎第一时间都会想到Scrapy框架，为什么呢？因为它非常好用。但是即便是再好用的工具，你不懂使用方法的话，也很容易掉进“无效学习”的陷阱里。本文我就分享一下作为一名Scrapy框架的初学者，在使用中踩过的5个坑，仅供大家参考。

对于初学者来说，要学会的第一件事就是创建一个项目。当你准备创建一个Scrapy项目时，你首先想到的是它会在哪个目录下运行，是当前目录还是某个特定的目录呢？如果创建在某个特定的目录下，又该怎么进入？

事实上，正确的方法是进入到命令行，然后运行scrapy startproject <project name>，Scrapy框架会自动在当前目录创建一个项目，然后你再进入到项目目录即可，它就在那里。这样是不是就省去了很多繁琐的步骤？

在爬虫软件的学习中，有一个知识点叫中间件，官方的解释是：中间件用于拦截和修改Scrapy请求和响应，在很大程度上扩展了Scrapy的功能。但我发现解释起来容易，但实际上理解和操作起来可不容易，这也是初学者最容易掉进的陷阱之一。

首先，我们要知道，Scrapy框架的中间件主要有两个作用：

其次，对于中间件的使用，以下几个信息点是初学者必须掌握的：

Scrapy框架的3个核心概念：

Scrapy框架的主要组件：

Scrapy框架的抓取过程主要分为以下几个步骤：

Scrapy框架提供了几种数据持久化方式，最常用的是：

不过，不管你选择哪种数据持久化方式，以下几点是需要注意的：

当你使用Scrapy框架进行网页抓取时，经常会遇到这样的情况：目标网站对你设置了爬虫访问限制，如果硬要请求，网站会封禁你的IP，甚至可能将你列入黑名单。而如果你的目标网站设置了反爬虫机制，那么你很有可能就会掉入到反爬虫陷阱中。

因此，初学者在使用Scrapy框架进行网页抓取时，一定要注意绕过反爬虫机制。最简单的方法就是使用代理IP，这样可以隐藏你的真实IP，避免被网站封禁。

探索Web开发资源和人工智能教程的代码社区

扫码关注微信公众号