数据分析干货：K 近邻算法（KNN）如何玩转分类和回归？

人工智能

2023-07-24 06:18:07

K 近邻算法：探索简单而强大的机器学习工具

了解 KNN 算法的本质

在机器学习的浩瀚世界中，K 近邻算法（KNN）以其简洁的原理和卓越的性能脱颖而出。它基于一个直观的假设：在特征空间中，相邻的样本往往具有相似的特性和类别。凭借这一洞察力，KNN 算法可以有效地进行分类和回归任务。

KNN 算法的工作原理

KNN 算法的运作过程非常简单：

数据准备： 首先，将数据划分为训练集和测试集。训练集用于训练模型，而测试集用于评估模型的性能。
选择相似性度量： 接下来，根据数据的特征选择合适的相似性度量函数。常见的度量包括欧式距离、曼哈顿距离和余弦相似度。
确定 K 值： K 值是一个关键超参数，它决定了算法考虑的邻居数量。通过交叉验证，我们可以找到最优的 K 值，既能避免欠拟合，又能防止过拟合。
计算相似性： 对于每个测试样本，计算其与所有训练样本的相似性。
确定 K 个最相邻的邻居： 从所有训练样本中找出与测试样本最相似的 K 个样本。
类别预测： 对于分类任务，将测试样本归类为 K 个最相邻的邻居中出现最多的类别。
数值预测： 对于回归任务，将测试样本的预测值设定为 K 个最相邻的邻居的平均值。

KNN 算法的应用场景

KNN 算法因其广泛的适用性和良好的性能而被广泛应用于以下领域：

图像分类： 识别手写数字、人脸图像等。
文本分类： 识别垃圾邮件、新闻类别等。
推荐系统： 根据用户的历史行为推荐产品或服务。
欺诈检测： 识别异常交易行为或可疑信用卡活动。
医疗诊断： 根据症状和病史预测患病可能性。

优化 KNN 算法的性能

为了让 KNN 算法发挥最佳性能，我们可以通过调整以下超参数：

K 值： 通过交叉验证确定最优的 K 值。
相似性度量： 选择最能反映数据相似性的度量函数。
数据预处理： 标准化或归一化数据可以提高算法的准确率。

代码示例

Python

from sklearn.neighbors import KNeighborsClassifier

# 导入数据
data = pd.read_csv('data.csv')

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data.drop('label', axis=1), data['label'], test_size=0.2)

# 初始化 KNN 分类器
knn = KNeighborsClassifier(n_neighbors=5)

# 训练模型
knn.fit(X_train, y_train)

# 预测测试集
y_pred = knn.predict(X_test)

# 评估模型
print('Accuracy:', accuracy_score(y_test, y_pred))