手写KMeans算法：理解聚类的奥秘

人工智能

2023-12-11 04:44:35

揭开 KMeans 聚类算法的神秘面纱：用数据挖掘宝藏

想象一下，你手里有成千上万个数据点，它们就像散落在广阔沙滩上的贝壳。你希望发现隐藏在它们之中的模式，把它们分类，找出相似之处。这就是聚类算法的用武之地，而 KMeans 算法就是其中一种最受欢迎的方法。

聚类：发现数据中的隐藏结构

聚类是一种无监督机器学习技术，它将数据点分组到称为簇的集合中。这些簇由具有相似特征的数据点组成。想想整理一组朋友的照片，你可以根据发型、服装或其他相似性将它们分组。聚类算法所做的正是这一点，但它适用于大量的数据点。

KMeans 算法：让数据自己说话

KMeans 算法是一种流行的聚类技术，因为它简单高效。它遵循一个直观的步骤：

1. 选择质心： 算法从数据集中随机选择 K 个数据点作为初始质心。这些质心代表每个簇的中心。

2. 分配数据点： 对于数据集中的每个数据点，它被分配到距离最近的质心所在的簇。

3. 更新质心： 计算每个簇中所有数据点的平均值，并将该平均值作为新的质心。

4. 重复步骤 2 和 3： 重复步骤 2 和 3，直到质心不再发生变化或达到预定义的迭代次数。

动手实践：用 Python 实现 KMeans

为了更好地理解 KMeans 算法，让我们通过一个简单的 Python 实现来模拟它：

import numpy as np
import matplotlib.pyplot as plt

# 数据集
data = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13, 14], [15, 16]])

# K 值
K = 3

# 随机选择 K 个质心
centroids = data[np.random.choice(len(data), K, replace=False)]

# 分配数据点到簇
clusters = [[] for _ in range(K)]
for point in data:
    distances = [np.linalg.norm(point - centroid) for centroid in centroids]
    cluster_idx = np.argmin(distances)
    clusters[cluster_idx].append(point)

# 更新质心
for i in range(K):
    centroids[i] = np.mean(clusters[i], axis=0)

# 可视化
plt.scatter(data[:, 0], data[:, 1], c='b')
plt.scatter(centroids[:, 0], centroids[:, 1], c='r')
plt.show()