机器学习 | 协方差、奇异值分解、PCA | 代码实现与效果展示

人工智能

2023-10-26 10:44:56

降维技术：探索协方差、奇异值分解和 PCA

在机器学习和数据分析的世界中，降维技术就像魔法。它们能够将庞大而复杂的高维数据集转化为更小、更容易理解的形式，同时保留关键信息。

协方差、奇异值分解 (SVD) 和主成分分析 (PCA) 是三种最常用的降维技术。

协方差：衡量特征之间的联系

就像朋友之间共享秘密一样，协方差测量了不同特征之间的线性关系强度。它就像一个统计量度，告诉你两个特征是多么同步变化。

奇异值分解：将矩阵分解为基本成分

想象一下一个矩阵像一个三明治，里面有很多层。SVD 将它切成三个部分：一个酉矩阵（像面包），一个对角矩阵（像肉）和另一个酉矩阵（像另一片面包）。对角矩阵中的值称为奇异值，它们揭示了矩阵的特征。

主成分分析 (PCA)：投影数据到最重要的方向

PCA 使用 SVD 来确定数据中最具信息量的方向，称为主成分。就像一个投影仪将电影投射到屏幕上一样，PCA 将原始数据投影到这些主成分上，从而降低数据的维度。

代码实现：让魔法发生

准备好见证降维的魔力了吗？以下是使用 Python 代码实现这些技术的步骤：

import numpy as np
from sklearn.decomposition import PCA

# 加载数据并进行预处理
data = np.loadtxt('data.csv', delimiter=',')
data -= np.mean(data, axis=0)

# 计算协方差矩阵
cov_matrix = np.cov(data, rowvar=False)

# 奇异值分解
U, S, Vh = np.linalg.svd(cov_matrix, full_matrices=False)

# PCA 降维
pca = PCA(n_components=2)
pca.fit(data)
data_reduced = pca.transform(data)

效果展示：见证转换

让我们将原始数据和降维后的数据进行对比。你可以看到，降维后数据保留了原始数据的关键特征，同时减少了维度。

# 可视化原始数据和降维后数据
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 10))
plt.scatter(data[:, 0], data[:, 1], c='r', label='原始数据')
plt.scatter(data_reduced[:, 0], data_reduced[:, 1], c='b', label='降维后数据')
plt.legend()
plt.show()

常见问题解答：揭开谜底