一文读懂KNN算法与超参数的调试

人工智能

2023-10-15 06:59:40

K-近邻算法：原理、超参数调试及其应用

在机器学习领域，K近邻（KNN）算法以其分类任务中的简单性和效率而闻名。让我们深入探讨其原理、超参数调整，并在实际数据集上演示它的应用。

K近邻算法的原理

KNN算法是一种基于实例的分类器，这意味着它使用训练数据集中与新数据点最相似的样本进行预测。它的工作原理如下：

计算距离： 对于一个新的数据点，KNN算法计算出训练集中所有样本与它的距离（通常使用欧几里得距离或曼哈顿距离）。
选择邻居： 根据距离，算法选择与新数据点最近的K个样本，这些样本称为K近邻。
投票分类： 算法计算K近邻中每个类别的数量，并根据出现次数最多的类别对新数据点进行分类。

KNN算法的超参数

KNN算法的关键超参数是K ，它决定了近邻的数量。不同的K值会影响算法的性能：

K值越大： 算法鲁棒性增强，对异常值不那么敏感，但泛化能力下降。
K值越小： 算法泛化能力增强，但鲁棒性降低，容易受到噪声和异常值的影响。

KNN算法在Scikit-Learn中的实现

在Scikit-Learn中，KNeighborsClassifier类提供了KNN算法的实现。它允许用户自定义超参数，包括：

n_neighbors： K值，指定要使用的邻居数量。
algorithm： 指定KNN算法的计算方法（brute-force或kd-tree）。
weights： 指定权重函数，用于计算邻居的权重。
metric： 指定距离度量（欧几里得、曼哈顿、闵可夫斯基）。

KNN算法的超参数调试

KNN算法的超参数可以通过网格搜索或随机搜索等方法进行调试。网格搜索 遍历超参数取值的所有可能组合，而随机搜索 从可能的取值中随机采样。

KNN算法在实际数据集上的应用

现在，让我们看看KNN算法在两个实际数据集上的表现：

鸢尾花数据集： 这个数据集包含150个鸢尾花样本，分为3个品种。

手写数字识别数据集： 这个数据集包含70,000个手写数字图像，分为10个类别。

以下代码展示了如何使用KNN算法对鸢尾花数据集进行分类并调试超参数：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

# 加载鸢尾花数据集
iris = pd.read_csv('iris.csv')

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(iris.drop('species', axis=1), iris['species'], test_size=0.2)

# 创建KNN分类器并指定超参数
knn = KNeighborsClassifier()

# 定义超参数网格
param_grid = {'n_neighbors': [3, 5, 7, 9], 'algorithm': ['brute', 'kd_tree'], 'weights': ['uniform', 'distance']}

# 使用网格搜索调试超参数
grid_search = GridSearchCV(knn, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 输出最优超参数
print("最优超参数：")
print(grid_search.best_params_)

# 计算分类精度
knn = grid_search.best_estimator_
knn.fit(X_train, y_train)
score = knn.score(X_test, y_test)
print("测试集精度：", score)