Linux(Centos 8)上使用Headless Chrome无头浏览器采集的真实体验

2023-11-29 18:47:25

最近在在采集微信文章的时候，遇到了点棘手的问题，通过搜狗搜索的微信搜索模式，使用普通的直接抓取页面的方式，无法绕过搜狗搜索的验证，因此使用gorequest成功的采集到微信文章。

引言

随着网络的发展，数据的重要性日益凸显，而网络爬虫作为获取数据的一种重要手段，也受到了越来越多的关注。本文将为大家分享我在Linux(Centos 8)上使用Headless Chrome无头浏览器采集的真实体验，并提供详细的Golang采集代码。

Headless Chrome是一个无界面的浏览器，它可以像普通浏览器一样执行 JavaScript 代码，但不会显示任何图形界面。这使得它非常适合用于网络爬虫，因为它可以避免图形界面的开销，从而提高爬虫的效率。

在Linux(Centos 8)上安装Headless Chrome非常简单，只需执行以下命令即可：

yum install chromium-headless

安装好Headless Chrome之后，就可以开始使用它进行网络爬虫了。这里以采集搜狗搜索的微信搜索结果为例，为大家详细介绍一下具体的操作步骤。

import (
	"context"
	"fmt"
	"log"
	"os"

	"github.com/chromedp/cdproto/cdp"
	"github.com/chromedp/chromedp"
)

options := []chromedp.ExecAllocatorOption{
	chromedp.Headless,
	chromedp.NoSandbox,
}

ctx, cancel := chromedp.NewContext(context.Background(), options...)

if err := chromedp.Run(ctx, chromedp.Navigate("https://weixin.sogou.com/")); err != nil {
	log.Fatal(err)
}

if err := chromedp.Run(ctx, chromedp.WaitReady("body")); err != nil {
	log.Fatal(err)
}

if err := chromedp.Run(ctx, chromedp.ScrollIntoView("body", chromedp.BySearch)); err != nil {
	log.Fatal(err)
}

var html string
if err := chromedp.Run(ctx, chromedp.EvaluateAsDevTools("document.documentElement.outerHTML", &html)); err != nil {
	log.Fatal(err)
}

defer cancel()

if err := os.WriteFile("weixin.html", []byte(html), 0644); err != nil {
	log.Fatal(err)
}

go run main.go

以上就是我在Linux(Centos 8)上使用Headless Chrome无头浏览器采集的真实体验，希望对大家有所帮助。如果大家还有其他问题，欢迎随时留言讨论。

探索Web开发资源和人工智能教程的代码社区

扫码关注微信公众号