Sklearn小抄之KNN算法，轻松掌握机器学习中“近朱者赤”的秘密！

闲谈

2024-01-22 08:49:49

剑指KNN，调包江湖无人能敌

天下武功，唯快不破。学习Sklearn，更是如此。今天，我们就正式开讲如何通过《Sklearn小抄》武林秘籍，成为一代宗师调包侠。

欲练此功，必先自宫；就算自宫，未必成功；若不自宫，也能练成绝世神功。

开个玩笑，学KNN算法，哪用得着自宫啊！

KNN算法：近朱者赤，有朋自远方来

KNN算法，全称K-Nearest Neighbors，即K个最近邻算法。它是一种机器学习算法，用于分类和回归。

KNN算法的核心思想很简单：它通过测量数据点与其他数据点的距离，来确定数据点所属的类别。距离越近，则数据点越相似；距离越远，则数据点越不相似。

KNN算法的优点在于：

它很容易理解和实现。
它不需要对数据进行复杂的预处理。
它可以处理各种类型的数据。

KNN算法的缺点在于：

它可能会对噪声数据敏感。
它可能需要大量的计算。

Sklearn助力，KNN算法轻松入门

在Sklearn中，我们可以使用KNeighborsClassifier和KNeighborsRegressor类来实现KNN算法。

分类

from sklearn.neighbors import KNeighborsClassifier

# 导入数据
X = [[0, 0], [1, 1]]
y = [0, 1]

# 创建KNN分类器
knn = KNeighborsClassifier(n_neighbors=1)

# 训练分类器
knn.fit(X, y)

# 预测数据
y_pred = knn.predict([[0.5, 0.5]])

# 打印预测结果
print(y_pred)

回归

from sklearn.neighbors import KNeighborsRegressor

# 导入数据
X = [[0, 0], [1, 1]]
y = [0, 2]

# 创建KNN回归器
knn = KNeighborsRegressor(n_neighbors=1)

# 训练回归器
knn.fit(X, y)

# 预测数据
y_pred = knn.predict([[0.5, 0.5]])

# 打印预测结果
print(y_pred)

参数调优，让KNN算法更强大

KNN算法中，最重要的参数就是n_neighbors。这个参数决定了算法考虑多少个最近邻数据点来进行预测。

一般来说，n_neighbors的值越大，则算法的准确率越高，但计算量也越大。

我们可以通过交叉验证来找到n_neighbors的最佳值。

from sklearn.model_selection import cross_val_score

# 导入数据
X = [[0, 0], [1, 1]]
y = [0, 1]

# 创建KNN分类器
knn = KNeighborsClassifier()

# 设置参数范围
param_grid = {'n_neighbors': range(1, 11)}

# 交叉验证
scores = cross_val_score(knn, X, y, cv=5, param_grid=param_grid)

# 打印最佳参数和准确率
print(param_grid['n_neighbors'][scores.argmax()], scores.max())