用 Python 网络爬虫从卫健委官网实战爬取文章

开发工具

2024-01-20 10:57:04

从卫健委官网爬取文章：破解反爬机制并使用 Python 网络爬虫

引言

爬虫技术在现代互联网中扮演着举足轻重的角色，它可以自动从网络上提取海量信息。本文将带你踏上一次使用 Python 网络爬虫从卫健委官网实战爬取文章的旅程。

卫健委官网的反爬挑战

与其他网站相比，卫健委官网的反爬机制可谓十分严苛，它采用了多种手段来阻挠爬虫：

IP 封禁： 当同一个 IP 在短时间内发送大量请求时，会被视为爬虫并被封禁。
验证码： 在某些情况下，卫健委官网会要求输入验证码才能访问其内容。
反爬虫头： 卫健委官网会检测爬虫常用的 HTTP 头，并根据这些头来识别和阻拦爬虫。

破解反爬机制

要克服这些反爬机制，我们需要采取以下策略：

更换 IP： 使用代理服务器或轮换 IP 地址来避免 IP 封禁。
破解验证码： 使用第三方服务或手动输入验证码。
伪装 HTTP 头： 使用与浏览器相似的 HTTP 头来伪装爬虫。

HTTP 请求和 BeautifulSoup

我们使用 Python 的 requests 库来发送 HTTP 请求并获取响应。BeautifulSoup 库用于解析 HTML 文档并提取所需数据。

代码示例

以下是一个完整代码示例，演示如何从卫健委官网爬取文章：

import requests
from bs4 import BeautifulSoup

# 配置请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"
}

# 设置代理服务器
proxies = {
    "http": "http://127.0.0.1:8080",
    "https": "https://127.0.0.1:8080",
}

# 发送请求
url = "https://www.nhc.gov.cn/xcsj/xxgzbd/202301/f1e506a8c1fe41ac90253a10d3e48610.shtml"
response = requests.get(url, headers=headers, proxies=proxies)

# 解析 HTML
soup = BeautifulSoup(response.text, "html.parser")

# 提取标题
title = soup.find("h1").text

# 提取内容
content = soup.find("div", class_="TRS_Editor").text

# 打印标题和内容
print(title)
print(content)