用Node.js搭建简单的图片爬虫：让下载图片不再是难题

2023-11-11 08:55:39

在当今数字时代，图片在我们的日常生活中扮演着越来越重要的角色。从社交媒体到电子商务网站，图片随处可见。有时，我们可能需要从网页上下载图片，以便在自己的项目中使用或进行进一步分析。

手动下载图片可能是一项繁琐且耗时的任务，尤其是当您需要下载大量图片时。幸运的是，我们可以利用编程来实现图片的自动下载。本指南将介绍如何使用Node.js构建一个简单的图片爬虫，利用node-crawler包从网页上抓取图片并下载到本地。

1. 安装Node.js和node-crawler

在开始之前，您需要确保已安装Node.js和node-crawler包。您可以通过以下命令安装它们：

npm install -g nodejs
npm install node-crawler

2. 创建Node.js项目

接下来，您需要创建一个Node.js项目。您可以使用以下命令创建一个新的Node.js项目：

mkdir my-image-crawler
cd my-image-crawler
npm init -y

这将创建一个名为“my-image-crawler”的新目录，并初始化一个新的Node.js项目。

3. 安装node-crawler

现在，您需要将node-crawler包安装到您的项目中。您可以使用以下命令安装它：

npm install node-crawler

4. 创建爬虫脚本

接下来，您需要创建一个爬虫脚本。您可以使用以下命令创建一个名为“crawler.js”的新文件：

touch crawler.js

然后，您需要将以下代码复制到“crawler.js”文件中：

const Crawler = require("node-crawler");

const crawler = new Crawler({
  maxConnections: 10,
  skipDuplicates: true,
  timeout: 60000,
});

crawler.queue({
  uri: "https://example.com",
  callback: (error, result, $) => {
    if (error) {
      console.error(error);
    } else {
      const images = $("img");
      images.each((i, image) => {
        const src = $(image).attr("src");
        console.log(src);
      });
    }
  },
});

这段代码创建了一个新的Crawler实例，并将其配置为最多同时进行10个连接，跳过重复的URL，并设置超时时间为60秒。然后，它将一个请求加入队列，该请求将抓取“https://example.com”页面。当请求完成时，回调函数将被调用。回调函数将检查页面中是否有任何img标签，如果有，它将提取每个img标签的src属性并将其打印到控制台。

5. 运行爬虫脚本

现在，您需要运行爬虫脚本。您可以使用以下命令运行它：

node crawler.js

这将启动爬虫并开始抓取“https://example.com”页面。爬虫将提取页面中所有img标签的src属性并将其打印到控制台。

6. 保存图片

如果您想将图片保存到本地，您可以修改“crawler.js”文件中的回调函数，如下所示：

crawler.queue({
  uri: "https://example.com",
  callback: (error, result, $) => {
    if (error) {
      console.error(error);
    } else {
      const images = $("img");
      images.each((i, image) => {
        const src = $(image).attr("src");
        request(src).pipe(fs.createWriteStream(`image-${i}.jpg`));
      });
    }
  },
});