Python 爬虫实践：运用 Requests + Time 模块解析招聘网站数据并保存至 CSV 文件（附源码）

见解分享

2023-09-16 14:12:19

利用 Python 优化招聘战略：如何爬取招聘网站数据

在当今快速变化的就业市场中，获取实时招聘数据至关重要。通过爬取招聘网站，招聘人员和求职者可以获得宝贵的见解，从而做出明智的决定。本文将引导您使用 Python 轻松高效地完成此任务，并深入探讨反爬虫策略和代码示例，帮助您充分利用招聘数据。

了解 Python 的强大功能

Python 作为一种多功能编程语言，提供了一系列工具，使您可以轻松地自动化数据收集过程。Requests 库允许您向网站发送 HTTP 请求，而 BeautifulSoup 则可以轻松地解析 HTML 响应。

反爬虫策略：规避网站障碍

招聘网站通常会部署反爬虫措施来阻止自动数据收集。了解这些策略至关重要：

请求头： 设置适当的请求头（如 User-Agent）以模拟浏览器行为。
IP 地址限制： 使用代理服务器或轮换 IP 地址来绕过请求限制。
验证码： 使用验证码破解服务或训练机器学习模型来解决验证码。

实战：逐步爬取招聘网站

步骤 1：导入库

import requests
from time import sleep
from bs4 import BeautifulSoup

步骤 2：设置请求头

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}

步骤 3：发送请求

response = requests.get(url, headers=headers)

步骤 4：解析 HTML 响应

soup = BeautifulSoup(response.text, 'html.parser')

步骤 5：提取数据

job_titles = [job.get_text() for job in soup.find_all('h2', class_='job-title')]
company_names = [company.get_text() for company in soup.find_all('span', class_='company-name')]

步骤 6：保存到 CSV 文件

with open('recruitment_data.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['Job Title', 'Company Name'])
    for i in range(len(job_titles)):
        writer.writerow([job_titles[i], company_names[i]])

代码示例：实际应用

以下是使用上述步骤从招聘网站提取数据的完整代码示例：

import requests
from time import sleep
from bs4 import BeautifulSoup
import csv

url = 'https://www.example.com/jobs'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}

response = requests.get(url, headers=headers)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    job_titles = [job.get_text() for job in soup.find_all('h2', class_='job-title')]
    company_names = [company.get_text() for company in soup.find_all('span', class_='company-name')]

    with open('recruitment_data.csv', 'w', newline='') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['Job Title', 'Company Name'])
        for i in range(len(job_titles)):
            writer.writerow([job_titles[i], company_names[i]])
else:
    print('Error: Failed to fetch data from website.')