从原理到实践：深入浅出理解KMeans聚类算法

人工智能

2023-12-23 11:03:57

KMeans算法简介

KMeans算法是一种无监督学习算法，它可以将给定数据集划分成k个簇，其中k是一个预先设定的参数。算法的目的是使每个簇中的数据点尽可能相似，而不同簇中的数据点尽可能不同。

KMeans算法原理

KMeans算法的原理很简单，它包含以下步骤：

初始化： 随机选择k个数据点作为初始簇中心。
分配： 将每个数据点分配给离它最近的簇中心。
更新： 计算每个簇的平均值，并将簇中心更新为新的平均值。
重复： 重复步骤2和步骤3，直到簇中心不再发生变化。

KMeans算法实现

KMeans算法很容易用Python实现。以下是一个简单的例子：

import numpy as np
from scipy.spatial.distance import cdist

def kmeans(X, k):
  """
  KMeans algorithm.

  Args:
    X: A numpy array of data points.
    k: The number of clusters.

  Returns:
    A tuple of (cluster_centers, cluster_labels).
  """

  # Initialize cluster centers.
  cluster_centers = X[np.random.choice(X.shape[0], k, replace=False)]

  # Assign data points to clusters.
  cluster_labels = np.zeros(X.shape[0], dtype=int)
  for i in range(X.shape[0]):
    distances = cdist([X[i]], cluster_centers)
    cluster_labels[i] = np.argmin(distances)

  # Update cluster centers.
  for i in range(k):
    cluster_centers[i] = np.mean(X[cluster_labels == i], axis=0)

  # Repeat until cluster centers no longer change.
  while True:
    old_cluster_centers = cluster_centers
    cluster_labels = np.zeros(X.shape[0], dtype=int)
    for i in range(X.shape[0]):
      distances = cdist([X[i]], cluster_centers)
      cluster_labels[i] = np.argmin(distances)
    cluster_centers = np.zeros((k, X.shape[1]))
    for i in range(k):
      cluster_centers[i] = np.mean(X[cluster_labels == i], axis=0)
    if np.allclose(old_cluster_centers, cluster_centers):
      break

  return cluster_centers, cluster_labels