手把手教你用k-means算法进行数据聚类

2023-12-22 16:12:58

简介：k-means聚类算法

k-means算法是一种无监督学习算法，常用于数据挖掘和机器学习中。k-means算法通过迭代的方式将数据点分组到k个簇中。簇的数量k需要提前设定，通常根据具体数据和应用场景来决定。k-means算法的主要步骤如下：

随机选择k个数据点作为初始簇中心。
计算每个数据点到所有簇中心的距离。
将每个数据点分配到距离其最近的簇中心所属的簇中。
重新计算每个簇的中心点。
重复步骤2到4，直到簇中心不再发生变化或达到最大迭代次数。

应用场景

k-means聚类算法广泛应用于客户细分、数据分析、降维、半监督学习、搜索引擎和图像分割等领域。例如，在客户细分中，k-means算法可以将客户分为不同的组，以便更好地进行有针对性的营销活动。在数据分析中，k-means算法可以用于发现数据的内在结构和模式。在降维中，k-means算法可以将高维数据降维到低维，以便于进一步分析。在半监督学习中，k-means算法可以用于初始化聚类中心，从而提高聚类的准确性。在搜索引擎中，k-means算法可以用于将搜索结果聚类，以便于用户更好地浏览和查找信息。在图像分割中，k-means算法可以用于将图像分割成不同的区域，以便于进一步分析和处理。

Python实现

我们可以使用python中的sklearn库来轻松实现k-means聚类算法。sklearn库提供了多种机器学习算法的实现，包括k-means聚类算法。以下是使用sklearn实现k-means聚类算法的代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# 加载数据
data = np.loadtxt('iris.csv', delimiter=',')
X = data[:, 0:4]
y = data[:, 4]

# 训练模型
model = KMeans(n_clusters=3)
model.fit(X)

# 预测
y_pred = model.predict(X)

# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

手动实现

我们也可以手动实现k-means聚类算法。以下是手动实现k-means聚类算法的代码：

import numpy as np
import matplotlib.pyplot as plt

# 加载数据
data = np.loadtxt('iris.csv', delimiter=',')
X = data[:, 0:4]
y = data[:, 4]

# 初始化簇中心
k = 3
centroids = X[np.random.choice(X.shape[0], k, replace=False), :]

# 迭代聚类
max_iters = 100
for i in range(max_iters):
    # 计算每个数据点到所有簇中心的距离
    distances = np.zeros((X.shape[0], k))
    for j in range(k):
        distances[:, j] = np.linalg.norm(X - centroids[j], axis=1)

    # 将每个数据点分配到距离其最近的簇中心所属的簇中
    y_pred = np.argmin(distances, axis=1)

    # 重新计算每个簇的中心点
    for j in range(k):
        centroids[j] = np.mean(X[y_pred == j], axis=0)

# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

结语

k-means聚类算法是一种流行的聚类算法，广泛应用于数据挖掘和机器学习中。在本文中，我们介绍了k-means聚类算法的工作原理及其应用场景。我们还使用python中的sklearn库和手动实现的方式演示了如何使用k-means聚类算法对鸢尾花数据进行聚类。希望通过本教程，您能够更好地理解k-means聚类算法并在实际工作中应用它。

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号

手把手教你用k-means算法进行数据聚类

Kyle

深入浅出剖析FP-Growth算法，通往高效频繁项集挖掘的捷径

让程序飞起来：异步调用的魔法

人工智能揭开文字背后的秘密：从评论到新闻，情感主题尽在掌握

Linux系统编程中的条件变量与生产者消费者模型

洞见LabVIEW LeNet手写数字识别系统：轻松搭建，高效实现