KMeans算法实现

人工智能

2024-02-03 21:46:08

K-Means聚类算法：洞悉数据中的隐藏模式

K-Means简介

想象你正在组织一场聚会，邀请了不同背景的朋友。为了让每个人都玩得开心，你需要根据他们的兴趣和性格将他们分组。这就是K-Means聚类算法发挥作用的地方，它是一种机器学习算法，将数据点分为不同的簇或组，以便每个组中的数据点具有相似的特征。

K-Means流程

K-Means算法遵循一个简单的流程，就像一步一步的烹饪食谱一样：

选择簇中心： 首先，你选择K个数据点作为初始簇中心，就像选择聚会上的主要人物一样。
分配数据点： 然后，你计算每个数据点到这些簇中心的距离，并将每个数据点分配到距离它最近的簇中，就像给客人分配座位一样。
重新计算簇中心： 接下来，你重新计算每个簇的簇中心，使其成为簇中所有数据点的平均值，就像找到每个组的平均喜好一样。
重复步骤： 最后，你重复步骤2和步骤3，直到簇中心不再发生变化，或者达到预定的迭代次数，就像调整座位安排直到每个人都满意一样。

K-Means的优点和缺点

就像任何烹饪方法都有其优点和缺点一样，K-Means算法也有其独特的优势和劣势：

优点：

简单易懂，计算高效。
能够处理大规模数据集。
可以应用于各种类型的聚类分析任务。

缺点：

K值的选取对聚类结果有很大影响。
对数据中的噪声和异常值敏感。
不适合于处理形状不规则的数据集。

K-Means的应用

就像烹饪方法可以用来制作各种美食一样，K-Means算法也在多个领域找到了广泛应用，包括：

市场细分：将客户分为具有相似需求的组别。
客户画像：建立代表不同客户群体的用户形象。
文本聚类：将文档或文本划分为基于主题或内容的组。
图像处理：根据颜色、纹理或形状将图像像素分组。
医学诊断：基于症状或患者数据将患者分类。

K-Means实现

学习如何烹饪一道菜需要一个好的食谱，同样，了解K-Means算法也需要一个清晰的实现示例：

import numpy as np
import matplotlib.pyplot as plt

def kmeans(X, k):
  """
  K-Means算法实现。

  参数：
    X：数据点，形状为(n, d)，其中n是数据点的数量，d是数据点的维数。
    k：簇的个数。

  返回值：
    聚类中心，形状为(k, d)。
    簇标签，形状为(n,)，其中每个元素表示对应的数据点所属的簇。
  """

  # 初始化聚类中心
  centroids = X[np.random.choice(X.shape[0], k, replace=False)]

  # 初始化簇标签
  labels = np.zeros(X.shape[0], dtype=np.int32)

  # 迭代直到收敛
  while True:

    # 计算每个数据点到聚类中心的距离
    distances = np.linalg.norm(X - centroids[:, np.newaxis], axis=2)

    # 分配簇标签
    labels = np.argmin(distances, axis=1)

    # 重新计算聚类中心
    centroids = np.array([np.mean(X[labels == i], axis=0) for i in range(k)])

    # 检查收敛条件
    if np.allclose(centroids, centroids_old):
      break

    # 更新聚类中心
    centroids_old = centroids

  return centroids, labels

# 测试K-Means算法
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
k = 2

centroids, labels = kmeans(X, k)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels)
plt.show()