机器学习实战学习笔记（1）：K-近邻算法实践与详解

2024-01-20 16:40:28

引言

《机器学习实战》是一本广受推崇的机器学习入门书籍，但对于初学者来说，理解书中的代码注释可能存在挑战。为了帮助解决这一问题，我将提供《机器学习实战》中K-近邻算法部分的学习笔记，并添加详细的注释和实践示例，让初学者能够更加轻松地理解和应用这种算法。

K-近邻算法简介

K-近邻算法是一种非参数监督学习算法，常用于分类和回归问题。它的工作原理是：对于一个新的数据点，算法首先找到与其最接近的K个数据点（邻居）；然后，根据邻居的类别或值，对新数据点进行分类或预测。

代码注释和实践示例

为了便于理解，我将在以下代码示例中添加注释：

import numpy as np
import matplotlib.pyplot as plt

# 定义数据集
data = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
# 定义标签
labels = np.array([0, 1, 0, 1])

# 新的数据点
new_data = np.array([2, 3])

# 选择K值
K = 3

# 计算距离
distances = np.linalg.norm(data - new_data, axis=1)

# 排序距离
sorted_distances = np.argsort(distances)

# 找出最接近的K个邻居
K_nearest_neighbors = sorted_distances[:K]

# 预测类别
predicted_label = np.argmax(np.bincount(labels[K_nearest_neighbors]))

# 输出预测结果
print("Predicted label:", predicted_label)