使用Puppeteer做数据爬虫的简单指南

2023-09-21 04:29:59

使用 Puppeteer 创建数据爬虫

安装 Puppeteer

踏上数据爬虫之旅的第一步是安装 Puppeteer。Puppeteer 是一款基于 Node.js 的无头浏览器，这意味着它可以在没有图形用户界面 (GUI) 的情况下运行。安装 Puppeteer 非常简单，只需在终端中键入以下命令：

npm install puppeteer

导入 Puppeteer

安装完成后，我们需要在我们的代码中导入 Puppeteer。这可以通过以下代码实现：

const puppeteer = require('puppeteer');

创建无头浏览器

有了 Puppeteer，我们就可以创建一个无头浏览器了。这样做的好处是可以模拟浏览器的行为，例如访问页面、点击元素和抓取数据，而无需实际打开 GUI 窗口。创建无头浏览器的代码如下：

const browser = await puppeteer.launch();

打开一个页面

现在，我们可以使用无头浏览器打开一个页面。只需将页面的 URL 作为参数传递给 page.goto() 方法即可：

const page = await browser.newPage();
await page.goto('https://example.com');

等待页面加载完成

在继续之前，我们需要等待页面完全加载。这确保了我们不会抓取不完整或过时的页面：

await page.waitForSelector('body');

抓取数据

有了 Puppeteer，抓取数据变得轻而易举。我们可以使用 page.$$eval() 方法，它接受一个 CSS 选择器和一个回调函数。回调函数将在页面上执行，并返回与该选择器匹配的所有元素的文本内容：

const data = await page.$eval('selector', (elements) => {
  return elements.map((element) => {
    return element.textContent;
  });
});

保存数据

最后，我们需要将抓取到的数据保存到本地或数据库中。我们可以使用 Node.js 的 fs 模块来写入文件：

fs.writeFileSync('data.json', JSON.stringify(data));

关闭浏览器

数据抓取完成后，我们需要关闭无头浏览器，释放系统资源：

await browser.close();

完整示例

以下是一个完整的示例，展示了如何使用 Puppeteer 编写一个数据爬虫：

const puppeteer = require('puppeteer');

async function main() {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  await page.goto('https://example.com');
  await page.waitForSelector('body');

  const data = await page.$eval('selector', (elements) => {
    return elements.map((element) => {
      return element.textContent;
    });
  });

  fs.writeFileSync('data.json', JSON.stringify(data));

  await browser.close();
}

main();