用Python实现网络爬虫和数据处理：智联招聘人才招聘特征分析与挖掘算法实现

2022-12-30 15:38:24

利用 Python 网络爬虫和数据分析进行智联招聘人才招聘特征分析与挖掘

准备工作

在开始智联招聘数据爬取与分析前，我们需要做一些准备工作：

安装必要的 Python 库，包括 requests、BeautifulSoup、pandas 和 MySQLdb。
创建一个 MySQL 数据库，并在其中创建一个名为“智联招聘”的表，用于存储爬取的数据。

爬取数据

为了收集智联招聘网站上有关人才招聘的信息，我们将使用 Python 网络爬虫：

import requests
from bs4 import BeautifulSoup

def crawl_data():
    # 设置请求头，伪装成浏览器访问
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36'}

    # 发送请求，获取网页内容
    url = 'https://www.zhaopin.com/jobs/searchresult.html?jl=%E5%8C%97%E4%BA%AC&kw=%E7%A8%8B%E5%BA%8F%E5%B7%A5%E7%A8%8B%E5%B8%88&sm=0'
    response = requests.get(url, headers=headers)

    # 解析网页内容，提取数据
    soup = BeautifulSoup(response.text, 'lxml')
    jobs = soup.select('div.job-primary')

    # 将数据存储到 MySQL 数据库
    for job in jobs:
        title = job.select_one('h3.job-name').text
        salary = job.select_one('span.red').text
        experience = job.select_one('p.job-require').text
        company = job.select_one('div.company-name a').text
        location = job.select_one('span.job-area').text

        # 将数据插入到 MySQL 数据库
        cursor.execute("INSERT INTO 智联招聘 (职位名称, 薪资, 工作经验, 公司名称, 工作地点) VALUES (%s, %s, %s, %s, %s)", (title, salary, experience, company, location))

    # 提交事务
    db.commit()

数据分析

爬取到数据后，我们可以使用 Python 进行数据分析：

import pandas as pd
from matplotlib import pyplot as plt

def analyze_data():
    # 从 MySQL 数据库中读取数据
    df = pd.read_sql("SELECT * FROM 智联招聘", db)

    # 分析平均工资与职位之间的关系
    df_salary_by_job = df.groupby('职位名称')['薪资'].mean().reset_index()
    df_salary_by_job.plot(x='职位名称', y='薪资', kind='bar')
    plt.xlabel('职位名称')
    plt.ylabel('平均薪资')
    plt.title('平均工资与职位之间的关系')
    plt.show()

    # 分析工作经验对于工作薪资待遇的影响
    df_salary_by_experience = df.groupby('工作经验')['薪资'].mean().reset_index()
    df_salary_by_experience.plot(x='工作经验', y='薪资', kind='bar')
    plt.xlabel('工作经验')
    plt.ylabel('平均薪资')
    plt.title('工作经验对于工作薪资待遇的影响')
    plt.show()