用Python爬取数据分析职位的工作数据进行分析和可视化，让你找工作不迷路！

2023-08-07 22:32:00

深入剖析数据分析职位工作数据的采集、预处理、分析和可视化

在当前蓬勃发展的数据领域，数据分析师已成为炙手可热的角色，对数据分析职位工作的需求不断飙升。为了充分了解这一趋势，我们必须深入研究数据分析职位工作数据的采集、预处理、分析和可视化过程。

数据采集

数据采集是整个过程的基础，它决定了我们后续分析和可视化的数据质量。在这里，我们主要依靠 Python 的 Requests 库和 BeautifulSoup 库来爬取招聘网站上的数据。Requests 库用于发送 HTTP 请求，而 BeautifulSoup 库则用于解析 HTML 文档。

import requests
from bs4 import BeautifulSoup

# 获取招聘网站的 URL 列表
urls = [
    "https://www.lagou.com/zhaopin/shanghai/数据分析/?labelWords=&fromSearch=true&suginput=",
    "https://www.zhipin.com/c101010100-p100101/",
    "https://www.51job.com/zhaopin/010000,000000,0000,00,9,99,数据分析,2.html"
]

# 遍历 URL 列表，获取每个招聘网站的 HTML 文档
for url in urls:
    response = requests.get(url)
    html_doc = response.text

    # 使用 BeautifulSoup 库解析 HTML 文档
    soup = BeautifulSoup(html_doc, "html.parser")

    # 提取数据分析职位的工作数据
    jobs = soup.find_all("div", class_="job-box")
    for job in jobs:
        job_title = job.find("h3", class_="job-name").text
        company_name = job.find("p", class_="company-name").text
        location = job.find("span", class_="location-address").text
        salary = job.find("span", class_="salary").text
        job_desc = job.find("div", class_="job-desc").text

        # 将数据存储到数据库或 CSV 文件中
        # ...

数据预处理

在对数据进行分析和可视化之前，必须进行适当的预处理，以确保数据质量和准确性。这包括去除重复数据、异常值和缺失值，并将其转换为合适的数据类型和格式。

import pandas as pd

# 加载数据
df = pd.read_csv("data_analysis_jobs.csv")

# 去除重复数据
df = df.drop_duplicates()

# 去除异常值
df = df[df["salary"] > 0]

# 去除缺失值
df = df.dropna()

# 将数据转换为合适的数据类型和格式
df["salary"] = df["salary"].astype(int)
df["location"] = df["location"].astype("category")

# 将数据存储到新的 CSV 文件中
df.to_csv("data_analysis_jobs_preprocessed.csv", index=False)

数据分析与可视化

完成数据预处理后，我们可以使用 Pandas、NumPy、Matplotlib 和 Seaborn 等 Python 库进行数据分析和可视化。Pandas 负责数据分析，包括统计分析、聚类分析和回归分析，而 NumPy、Matplotlib 和 Seaborn 则用于数据可视化，包括折线图、直方图、散点图和热力图。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 加载预处理后的数据
df = pd.read_csv("data_analysis_jobs_preprocessed.csv")

# 进行统计分析
print("数据分析职位工作数据的统计信息：")
print(df.describe())

# 进行聚类分析
kmeans = KMeans(n_clusters=3)
kmeans.fit(df[["salary", "location"]])
df["cluster"] = kmeans.labels_

# 进行回归分析
X = df[["salary", "location"]]
y = df["cluster"]
model = LinearRegression()
model.fit(X, y)

# 进行数据可视化
# 绘制折线图
plt.plot(df["year"], df["salary"])
plt.xlabel("年份")
plt.ylabel("薪资")
plt.title("数据分析职位工作薪资趋势")
plt.show()

# 绘制直方图
plt.hist(df["salary"], bins=20)
plt.xlabel("薪资")
plt.ylabel("数量")
plt.title("数据分析职位工作薪资分布")
plt.show()

# 绘制散点图
plt.scatter(df["salary"], df["location"])
plt.xlabel("薪资")
plt.ylabel("地点")
plt.title("数据分析职位工作薪资与地点的关系")
plt.show()

# 绘制热力图
plt.heatmap(df.corr(), annot=True)
plt.title("数据分析职位工作数据相关性热力图")
plt.show()