基于Hadoop的豆瓣电影数据处理与分析

2024-01-14 19:25:27

使用 Python 分析豆瓣电影数据：从数据抓取到数据可视化

数据抓取

为了充分利用豆瓣电影网站上的宝贵信息，第一步是使用 Python 编写网络爬虫来抓取数据。网络爬虫是一种自动化工具，通过分析网页结构，可以高效地提取特定信息。在豆瓣电影网站上，我们可以针对电影名称、评分、评论等字段设计抓取程序。

import requests
from bs4 import BeautifulSoup

# 创建网络请求会话
session = requests.Session()

# 设置要抓取的 URL
url = "https://movie.douban.com/top250"

# 发送网络请求并获取网页内容
response = session.get(url)

# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(response.text, "html.parser")

# 提取电影信息
movies = soup.find_all("div", class_="item")
for movie in movies:
    title = movie.find("span", class_="title").text
    score = movie.find("span", class_="rating_num").text
    comments = movie.find("span", class_="inq").text
    print(f"{title} - {score} - {comments}")

数据清洗

抓取到的数据通常包含空值、不一致或格式错误的数据。因此，在进行分析之前，我们需要对数据进行清洗。这涉及检测空值、对字符串应用约束、去除重复值，甚至通过添加派生字段或参考数据来扩充数据。

import pandas as pd

# 导入抓取到的数据
df = pd.read_csv("豆瓣电影数据.csv")

# 处理空值
df.dropna(inplace=True)

# 限制字符串长度
df["title"] = df["title"].str.slice(0, 50)

# 删除重复行
df.drop_duplicates(inplace=True)

# 扩充数据
df["year"] = df["title"].str.extract(r"\((\d+)\)")

大数据分析

清洗后的数据可以进行大数据分析，以揭示隐藏的模式和趋势。首先，我们可以探索数据，使用直方图、散点图或箱线图等可视化技术来了解数据的分布和相关性。

接下来，我们可以建立数据模型。例如，我们可以使用线性回归来预测电影评分，或使用分类模型来识别不同电影类型。为了评估模型的性能，我们将使用交叉验证和混淆矩阵。

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

# 创建线性回归模型
model = LinearRegression()

# 使用交叉验证评估模型
scores = cross_val_score(model, df[["score", "year"]], df["title"], cv=5)
print(f"平均交叉验证得分：{scores.mean()}")

数据可视化

最后，为了使分析结果易于理解和传达，我们将使用数据可视化。这可以包括使用饼状图、条形图或热图来展示电影类型的分布、不同年份电影评分的趋势，或者甚至使用网络图来展示电影之间的关系。

import matplotlib.pyplot as plt
import seaborn as sns

# 绘制电影类型的饼状图
plt.figure(figsize=(10, 10))
plt.pie(df["genre"].value_counts(), labels=df["genre"].unique())
plt.title("电影类型的分布")
plt.show()