数据科学家指南：用KNN (k近邻算法)驾驭数据！

人工智能

2023-07-24 11:11:30

深入浅出学 KNN 算法：机器学习的秘密武器

前言

欢迎来到数据科学的奇妙世界！今天，我们将一起踏上激动人心的旅程，探索一个强大而直观的机器学习算法——KNN（k近邻算法）。准备好大开眼界了吗？

KNN 算法：让邻居来帮忙

想象一下你身处一片陌生森林中，想要判断自己身处何方。KNN 算法就像一群友好的向导，它们会寻找你附近的几个“邻居”（数据点），然后根据这些邻居的位置推断出你的位置（目标数据点）。

例如，在诊断马疝病时，KNN 算法会查看一匹马的症状数据（例如脉搏和呼吸频率），然后找到这匹马最近的 k 个患有马疝病或未患病的马匹。根据这些邻居的诊断结果，算法就会预测这匹马是否患有马疝病。

KNN 算法的运作原理

KNN 算法的实现步骤如下：

数据预处理： 将数据导入机器学习程序并选择适当的 k 值（通常在 1 到 10 之间）。
训练模型： 模型通过学习数据中的规律来识别数据之间的模式。
预测新数据： 对于新的数据点，算法会找到其附近的 k 个邻居，并根据邻居的类别预测该数据点的类别。

KNN 算法的优势

简单易懂： 即使是非技术人员也能轻松理解 KNN 算法的原理。
快速高效： 算法的训练和预测过程都非常迅速。
强大的预测能力： 尽管其简单性，KNN 算法在许多应用中都表现出令人印象深刻的预测精度。

KNN 算法的应用

KNN 算法的应用范围广泛，包括：

医学诊断： 预测疾病的风险或严重程度。
文本分类： 将文本文档归类到不同的主题类别。
图像识别： 识别和分类图像中的物体。
推荐系统： 根据用户过去的偏好推荐产品或服务。

实战示例：马疝病预测

我们以马疝病预测为例，来亲身体验 KNN 算法的强大功能。

import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier

# 导入马疝病数据集
data = pd.read_csv("horse_colic.csv")

# 选择 k 值
k = 5

# 训练 KNN 模型
model = KNeighborsClassifier(n_neighbors=k)
model.fit(data.iloc[:, :-1], data.iloc[:, -1])

# 预测新数据
new_data = [36, 110, 72, 15.5, 12.5, 2.0, 5.0, 5.0, 5.0]
prediction = model.predict([new_data])

# 打印预测结果
print("预测结果：", prediction)