用 Node.js 征服爬虫世界：探寻图片背后的秘密

2024-01-03 03:50:18

征服爬虫世界：Node.js 爬虫入门指南

踏入编程的世界，爬虫是不可忽视的利器。Node.js，作为当今备受欢迎的 JavaScript 运行时环境，为爬虫开发提供了坚实的基础。它不仅拥有丰富的库和模块，更以轻量级和高性能著称。本次旅程，我们将利用 Node.js 构建一个爬虫程序，目标直指 "去哪了" 首页图片，带您领略图片爬取的奥秘。

初探 "去哪了" 首页：揭开图片的藏身之所

首先，让我们仔细审视 "去哪了" 首页的结构。打开网站，映入眼帘的是各种旅游资讯、酒店预订和机票查询的入口，而我们感兴趣的图片，则分散在各个角落，亟待挖掘。为了顺利提取这些图片，我们需要对网站的 HTML 结构进行深入分析。

利器在手，破译 HTML 结构：cheerio 粉墨登场

面对复杂的 HTML 结构，我们不能望而却步。这时，cheerio 便闪亮登场。作为一款优秀的 Node.js 库，cheerio 能够将 HTML 代码解析为易于操作的 DOM 结构，就像使用 jQuery 操作 HTML 文档一样简单。有了 cheerio 的加持，我们可以轻松获取指定元素的内容，为图片的爬取扫清障碍。

循序渐进，编写代码：一步步攻克图片爬取

引入模块：铺平征途
```
const cheerio = require('cheerio');
```

获取页面内容：揭开网站的面纱

const request = require('request');
const url = 'https://www.qunar.com/';

request(url, (error, response, body) => {
  if (!error && response.statusCode === 200) {
    const $ = cheerio.load(body);
  }
});

定位目标：直指图片宝藏
```
const images = $('img');
```

获取图片链接：揭示图片的秘密

images.each((i, elem) => {
  const src = $(elem).attr('src');
});

保存图片：将图片收入囊中

const fs = require('fs');

images.each((i, elem) => {
  const src = $(elem).attr('src');
  const filename = `image_${i}.jpg`;

  request(src).pipe(fs.createWriteStream(filename));
});