Node.js爬取网站列表a标签

2023-09-18 11:59:33

前言

在现代互联网时代，爬虫技术已经成为一种不可或缺的手段。爬虫可以帮助我们快速获取大量的信息，从而为我们的工作和生活带来便利。本文将介绍如何使用Node.js来爬取网站列表中a标签的属性，并将其导入excel中。

Node.js简介

Node.js是一个开源的JavaScript运行时环境，它基于Chrome V8引擎，可以将JavaScript代码编译为机器码，从而实现高性能的服务器端编程。Node.js非常适合开发网络应用，因为它具有非阻塞式I/O模型，可以同时处理多个请求，从而提高服务器的吞吐量。

安装Node.js

在开始使用Node.js之前，我们需要先安装它。我们可以从Node.js官网下载安装包，然后按照安装向导进行安装。安装完成后，我们可以在命令行中输入node -v命令来查看Node.js的版本。

安装所需库

为了使用Node.js进行爬虫，我们需要安装一些必要的库。我们可以使用npm命令来安装这些库。在命令行中输入以下命令：

npm install cheerio request axios exceljs

代码示例

const cheerio = require('cheerio');
const request = require('request');
const axios = require('axios');
const exceljs = require('exceljs');

// 创建一个新的工作簿
const workbook = new exceljs.Workbook();

// 创建一个新的工作表
const worksheet = workbook.addWorksheet('Sheet1');

// 设置工作表的列头
worksheet.columns = [
  { header: '链接', key: 'href', width: 100 },
  { header: '标题', key: 'text', width: 100 }
];

// 使用axios请求网站列表
axios.get('https://www.example.com')
  .then((response) => {
    // 使用cheerio解析HTML内容
    const $ = cheerio.load(response.data);

    // 查找列表中所有的a标签
    $('a').each((i, el) => {
      // 获取a标签的属性
      const href = $(el).attr('href');
      const text = $(el).text();

      // 将a标签的属性写入工作表
      worksheet.addRow({ href, text });
    });

    // 保存工作簿
    workbook.xlsx.writeFile('a-tags.xlsx');
  })
  .catch((error) => {
    console.log(error);
  });