返回
白板推导系列笔记:从降维 SVD 看 PCA、PCoA 到 Probabilistic PCA
人工智能
2023-09-24 16:55:56
在数据科学领域,降维技术在处理高维数据集时至关重要。它通过将数据映射到一个维数更低的子空间来简化数据,同时保留其关键特征。本文将深入探究降维技术,重点关注奇异值分解 (SVD)、主成分分析 (PCA) 和 PCoA (主坐标分析) 以及概率主成分分析 (Probabilistic PCA)。
SVD:特征分解的视角
奇异值分解 (SVD) 是一个强大的线性代数工具,用于将矩阵分解为三个矩阵的乘积:
A = U Σ V^T
其中:
- A 是原始矩阵
- U 和 V 是酉矩阵
- Σ 是一个对角矩阵,包含 A 的奇异值(对角元素)
SVD 的关键思想是找到矩阵 A 中方差最大的方向。奇异值表示这些方向的方差,而 U 和 V 的列分别表示这些方向上的单位向量。
PCA:主成分分析
PCA 是一种基于 SVD 的降维技术,它通过将数据投影到由最大方差方向张成的子空间上来简化数据。这些方向称为主成分。
PCA 过程如下:
- 对数据进行中心化和标准化。
- 计算数据协方差矩阵。
- 对协方差矩阵进行 SVD,获得奇异值和主成分。
- 将数据投影到主成分张成的子空间。
PCoA:主坐标分析
PCoA 是一种类似于 PCA 的降维技术,但它专注于保留距离信息。PCoA 的步骤如下:
- 计算数据之间的距离矩阵。
- 对距离矩阵进行 SVD,获得奇异值和主坐标。
- 将数据投影到主坐标张成的子空间。
与 PCA 不同,PCoA 不直接使用协方差矩阵,而是使用距离矩阵。这使得它更适合于处理非正态分布或包含缺失值的数据。
Probabilistic PCA(概率主成分分析)
Probabilistic PCA (PPCA) 是一种生成式降维技术,它假设数据是从一个潜在的低维正态分布中生成的。PPCA 过程如下:
- 假设数据是由潜在变量 z 产生的,服从均值为 0、协方差矩阵为 Σ 的正态分布。
- 观察变量 x 是潜在变量 z 与一个正态分布的线性组合。
- 使用贝叶斯推理估计潜在变量 z 和观测变量 x 之间的线性关系。
与其他降维技术不同,PPCA 可以对潜在变量进行推断,并生成新的数据点。这使其成为处理缺失值和数据生成等任务的宝贵工具。
总结
降维技术在数据科学中至关重要,它们可以通过简化数据和保留关键特征来改善模型性能和数据可视化。SVD、PCA、PCoA 和 Probabilistic PCA 是四种广泛使用的降维技术,每种技术都有其独特的优势和应用领域。
掌握这些技术对于数据科学家来说是必不可少的,它使他们能够从高维数据中提取有意义的信息,从而做出更明智的决策。