聚类算法（kmeans）揭秘：从原理到 Python 实现

2023-09-04 09:41:10

引言

在数据泛滥的时代，数据挖掘已成为一门不可或缺的技能。聚类分析作为数据挖掘中的重要技术，旨在将具有相似特性的数据点归类为同一组，从而揭示数据中的潜在模式。而 k-means 算法无疑是聚类算法中的佼佼者，以其简单高效著称。本文将深入浅出地探讨 k-means 算法的原理和 Python 实现，让你轻松驾驭聚类分析的奥秘。

k-means 算法原理

k-means 算法是一种无监督学习算法，这意味着它不需要预先标记的数据。算法的核心思想是：给定一组数据点和一个预定义的聚类数量 k，算法将迭代地将数据点分配到 k 个簇中，使得簇内数据点的相似度最高，而簇间数据点的相似度最低。

具体来说，k-means 算法的工作过程如下：

初始化： 随机选择 k 个数据点作为初始簇质心。
分配： 遍历每个数据点，将其分配到与之最相似的簇中，相似度通常使用欧几里得距离度量。
更新： 重新计算每个簇的质心，作为簇内所有数据点的平均值。
重复： 重复步骤 2 和 3，直到质心不再变化或达到最大迭代次数。

Python 实现

有了对算法原理的了解，我们接下来将动手实现 k-means 算法。以下 Python 代码演示了如何使用 scikit-learn 库实现 k-means 聚类：

import numpy as np
from sklearn.cluster import KMeans

# 样本数据
data = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])

# 定义聚类数量
k = 2

# 创建 k-means 模型
model = KMeans(n_clusters=k)

# 拟合模型
model.fit(data)

# 获取聚类结果
labels = model.labels_