k-means聚类算法及其在Python中的实现

人工智能

2023-11-11 01:27:30

K-Means 聚类算法：一种强大而简单的聚类技术

在数据科学和机器学习领域，聚类是一项关键任务，它涉及将数据点分组到具有相似特征的类别中。在这个过程中，K-Means 聚类算法 以其简单有效而闻名，成为一项颇受青睐的技术。

K-Means 聚类算法简介

K-Means 聚类算法 是一种无监督学习算法，它可以将数据点划分为 K 个簇，使得每个簇内的成员彼此相似，而不同簇之间的成员则彼此不同。算法的运作方式如下：

随机初始化： 首先，随机选择 K 个数据点作为簇中心。
分配数据点： 接下来，将每个数据点分配到离它最近的簇中心。
更新簇中心： 然后，计算每个簇的平均值，并将其作为该簇的新中心。
重复步骤： 重复步骤 2 和 3，直到簇中心不再变化或达到最大迭代次数。

K-Means 聚类算法步骤

为了更深入地了解 K-Means 聚类算法，让我们分解其步骤：

步骤 1：随机初始化

算法从随机选择 K 个数据点作为初始簇中心开始。这些中心决定了初始簇的位置。

步骤 2：分配数据点

在这个步骤中，算法将每个数据点分配到离它最近的簇中心。距离通常使用欧几里德距离来衡量。

步骤 3：更新簇中心

接下来，算法计算每个簇中所有数据点的平均值。这个平均值成为该簇的新中心，代表了簇的中心位置。

步骤 4：重复步骤

算法重复步骤 2 和 3，直到满足以下条件之一：

簇中心不再变化，表明聚类已收敛。
达到最大迭代次数，表明算法已达到其限制。

K-Means 聚类算法 Python 实现

以下 Python 代码提供了 K-Means 聚类算法的简单实现：

import numpy as np
import matplotlib.pyplot as plt

# 加载数据
data = np.loadtxt('data.csv', delimiter=',')

# 随机初始化 K 个簇中心
k = 3
centroids = data[np.random.choice(data.shape[0], k, replace=False)]

# 将每个数据点分配到离它最近的簇中心
clusters = np.zeros(data.shape[0], dtype=int)
for i in range(data.shape[0]):
    distances = np.linalg.norm(data[i] - centroids, axis=1)
    clusters[i] = np.argmin(distances)

# 计算每个簇的平均值，并将每个簇中心更新为该平均值
for i in range(k):
    centroids[i] = np.mean(data[clusters == i], axis=0)

# 重复步骤2和步骤3，直到簇中心不再变化或达到最大迭代次数为止
max_iter = 100
for _ in range(max_iter):
    # 将每个数据点分配到离它最近的簇中心
    for i in range(data.shape[0]):
        distances = np.linalg.norm(data[i] - centroids, axis=1)
        clusters[i] = np.argmin(distances)

    # 计算每个簇的平均值，并将每个簇中心更新为该平均值
    for i in range(k):
        centroids[i] = np.mean(data[clusters == i], axis=0)

# 绘制结果
plt.scatter(data[:, 0], data[:, 1], c=clusters)
plt.show()