【程序员福利】用Spark SQL玩转电影评分数据分析

2024-01-18 02:07:47

使用 Spark SQL 分析电影评分数据

随着数据量的激增，数据分析已成为一项必备技能。Spark SQL 作为一款强大的数据分析引擎，可以轻松处理海量数据。本博客将深入探讨 Spark SQL 如何分析电影评分数据，助力您掌握数据分析技巧。

数据准备

第一步是获取数据。您可以从 Kaggle 等网站下载电影评分数据集，其中包含电影名称、评分和评论等信息。

创建 SparkSession

SparkSession 是 Spark SQL 的入口，用于管理集群和执行查询。使用以下代码创建 SparkSession：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master("local") \
    .appName("Movie Rating Analysis") \
    .getOrCreate()

加载数据

使用 read.csv() 方法将数据集加载到 Spark SQL 中：

df = spark.read.csv("movie_ratings.csv", header=True, inferSchema=True)

数据探索

使用 Spark SQL 查询数据以进行探索：

# 查看前 10 行数据
df.show(10)

# 计算电影评分的平均值
df.groupBy("movie_name").avg("rating").show()

# 统计每部电影的评分分布
df.groupBy("movie_name").count().orderBy("count", descending=True).show()

数据建模

创建临时表以对数据进行建模：

df.createOrReplaceTempView("movies")

数据分析

使用 SQL 查询对数据进行分析：

# 找出评分最高的电影
spark.sql("SELECT movie_name, AVG(rating) AS avg_rating FROM movies GROUP BY movie_name ORDER BY avg_rating DESC").show()

# 找出评分最低的电影
spark.sql("SELECT movie_name, AVG(rating) AS avg_rating FROM movies GROUP BY movie_name ORDER BY avg_rating ASC").show()

# 找出评分分布最均匀的电影
spark.sql("SELECT movie_name, STDDEV(rating) AS stddev_rating FROM movies GROUP BY movie_name ORDER BY stddev_rating ASC").show()

结果展示

将分析结果可视化：

import matplotlib.pyplot as plt

# 绘制电影评分分布图
plt.hist(df["rating"], bins=10)
plt.xlabel("Rating")
plt.ylabel("Frequency")
plt.title("Movie Rating Distribution")
plt.show()

# 绘制电影评分与评论数的关系图
plt.scatter(df["rating"], df["num_reviews"])
plt.xlabel("Rating")
plt.ylabel("Number of Reviews")
plt.title("Movie Rating vs. Number of Reviews")
plt.show()