CLI 工具助力高效抓取奇舞周刊文章链接

2023-12-07 06:21:36

前言

奇舞周刊是国内最受欢迎的技术博客之一，每周都会发布大量高质量的文章。这些文章涵盖了各种技术领域，包括编程、设计、运维等。想要获取奇舞周刊最新文章的链接，可以到该网站查看和订阅，也可以使用 CLI 工具自动抓取。

实现思路

首先，使用 Puppeteer 库模拟浏览器访问奇舞周刊网站。其次，通过 CSS 选择器定位到包含文章标题、和链接的元素，并使用内置的函数提取这些信息。最后，将抓取到的数据保存到本地文件中。为了避免重复抓取，可以设置一个缓存机制，将之前抓取过的文章链接存储起来，当再次抓取时，先检查缓存中是否已经存在该链接，如果存在，则跳过该链接，否则继续抓取。

代码实现

const puppeteer = require('puppeteer');
const fs = require('fs');

// 创建 Puppeteer 实例
const browser = await puppeteer.launch();

// 打开奇舞周刊网站
const page = await browser.newPage();
await page.goto('https://www.qimaixun.com/');

// 获取文章标题、和链接
const articles = await page.$eval('.article-item', (elements) => {
  return elements.map((element) => {
    return {
      title: element.querySelector('.article-title').textContent.trim(),
      description: element.querySelector('.article-excerpt').textContent.trim(),
      link: element.querySelector('.article-link').href,
    };
  });
});

// 将抓取到的数据保存到本地文件中
fs.writeFileSync('articles.json', JSON.stringify(articles));

// 关闭浏览器
await browser.close();

使用方法

首先，需要安装 Puppeteer 库。可以使用以下命令进行安装：

npm install puppeteer

安装完成后，就可以使用该工具了。在终端中输入以下命令：

node index.js

该命令会自动抓取奇舞周刊网站上的文章标题、描述和链接，并将抓取到的数据保存到本地文件中。

缓存机制

为了避免重复抓取，可以使用一个缓存机制。在代码中，可以使用如下代码实现缓存机制：

// 读取缓存文件
const cachedArticles = JSON.parse(fs.readFileSync('articles.json'));

// 检查缓存中是否已经存在该链接
const cachedArticleLinks = cachedArticles.map((article) => article.link);
if (cachedArticleLinks.includes(article.link)) {
  continue;
}

// 将新文章添加到缓存文件中
cachedArticles.push(article);
fs.writeFileSync('articles.json', JSON.stringify(cachedArticles));