机器学习——K-Means聚类揭秘：理论与实战

人工智能

2023-11-29 22:51:58

K-Means聚类：数据挖掘中的神奇魔法

探索数据隐藏的内在联系

在浩瀚的数据海洋中，挖掘数据内在的联系至关重要，而聚类技术就犹如一盏明灯，照亮了数据隐藏的规律。其中，K-Means聚类算法凭借其简明易懂、高效实用的特性脱颖而出，成为数据挖掘领域一颗璀璨的明星。

揭开K-Means聚类的秘密

K-Means聚类算法的工作原理令人惊叹，它就像一个巧妙的魔术师，将数据点按照相似性划分成不同的簇，让数据的内在联系清晰可见。算法的精髓在于将数据点分配到K个簇中，每个簇中的点尽可能相似，而不同簇之间的点尽可能不同。

算法的基本流程如下：

随机选择K个初始簇中心点： 这些中心点将成为初始的簇中心。
分配每个数据点到最近的簇中心： 根据欧氏距离或其他相似性度量，将每个数据点分配到距离其最近的簇中心。
更新簇中心： 重新计算每个簇内所有数据点的平均值，并将该平均值作为新的簇中心。
重复步骤2和3： 继续执行以上两个步骤，直到簇中心不再发生变化或达到预定的迭代次数。

K-Means聚类实战指南

为了更好地理解K-Means聚类的应用，让我们深入一个简单的实战案例：

数据集： 一群购物者的购买记录，包括购买的商品数量和类别。

目标： 将购物者聚类，找出不同的消费群体。

步骤：

选择K值： 根据数据集的规模和特性，选择一个合适的K值（例如，3或4）。
初始化簇中心： 随机选择K个数据点作为初始簇中心。
分配数据点到簇： 计算每个数据点与每个簇中心的距离，并将其分配到距离最小的簇。
更新簇中心： 计算每个簇内所有数据点的平均值，并将其作为新的簇中心。
重复步骤3和4： 继续执行以上两个步骤，直到簇中心不再发生变化。

结果：

经过多次迭代，算法将购物者聚类为几个簇，每个簇代表一个不同的消费群体，例如：

簇1： 经常购买大件商品（如电器）的高端消费者。
簇2： 经常购买日用品（如食品）的日常消费者。
簇3： 经常购买时尚商品（如服装）的时尚达人。

K-Means聚类的优势和局限

如同任何工具一样，K-Means聚类也有其优势和局限：

优势：

简单易懂： 算法直观易懂，易于实现。
高效实用： 算法收敛速度快，可处理大规模数据集。
广泛适用： K-Means聚类几乎可以应用于所有对象。

局限：

K值选择： K值的选择会影响聚类的结果，没有一个通用的方法来确定最优的K值。
对异常值敏感： 异常值可能会导致算法收敛到局部最优解，从而影响聚类的质量。
簇形状敏感： K-Means聚类假设簇形状为球形，如果实际的簇形状不同，则聚类结果可能不理想。

代码示例：

使用Python实现K-Means聚类算法的代码示例如下：

import numpy as np
import matplotlib.pyplot as plt

# 数据集
data = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])

# 选择K值
K = 3

# 初始化簇中心
centroids = data[np.random.choice(data.shape[0], K, replace=False)]

# 分配数据点到簇
clusters = [[] for _ in range(K)]
for data_point in data:
    distances = [np.linalg.norm(data_point - centroid) for centroid in centroids]
    cluster_index = np.argmin(distances)
    clusters[cluster_index].append(data_point)

# 更新簇中心
for i in range(K):
    centroids[i] = np.mean(clusters[i], axis=0)

# 重复分配和更新簇中心
while True:
    previous_centroids = centroids
    clusters = [[] for _ in range(K)]
    for data_point in data:
        distances = [np.linalg.norm(data_point - centroid) for centroid in centroids]
        cluster_index = np.argmin(distances)
        clusters[cluster_index].append(data_point)
    for i in range(K):
        centroids[i] = np.mean(clusters[i], axis=0)
    if np.array_equal(centroids, previous_centroids):
        break

# 可视化聚类结果
plt.scatter(data[:, 0], data[:, 1])
plt.scatter(centroids[:, 0], centroids[:, 1], c='red')
plt.show()