你在用ENN搞事情？还在学？完全颠覆你对欠采样的认知！

2023-07-05 19:30:21

ENN：处理样本分布不平衡的秘密武器

在机器学习的分类任务中，样本分布不平衡是一个棘手的问题。当一个类别中的样本数量远远少于另一个类别时，分类算法往往会偏向数量较多的类别，忽视数量较少的类别。解决这个问题的秘密武器就是欠采样方法，其中 Edited Nearest Neighbors (ENN) 是一个杰出的代表。

ENN：KNN 的升级版

ENN 是基于 K-最近邻 (KNN) 算法的一种欠采样方法。它通过识别并移除那些与少数类样本相似度较低的多数类样本，来实现数据平衡。

步骤详解：

计算每个多数类样本与所有少数类样本之间的距离。
找出距离少数类样本最近的 K 个多数类样本。
移除这些 K 个多数类样本。
重复步骤 1-3，直至数据集中的样本分布达到平衡。

ENN 的优势

简单有效： ENN 易于理解和实现，是解决样本分布不平衡问题的一种高效方法。
信息保留： ENN 能够有效地减少多数类样本数量，同时保留重要的信息，避免因过度欠采样而丢失有价值的样本。
分类性能提升： ENN 可以显着提高分类算法的性能，尤其是在少数类样本数量较少的情况下。

ENN 的缺点

潜在信息损失： ENN 可能会移除一些有价值的多数类样本，导致分类算法性能下降。
运行时间： 对于大型数据集，ENN 的运行时间可能会比较长。

ENN 的应用场景

解决样本分布不平衡问题： ENN 非常适用于解决分类任务中的样本分布不平衡问题。
大型数据集处理： ENN 可以有效处理大型数据集，因为它的运行时间不会随着数据集大小的增加而大幅增加。
高维数据处理： ENN 适用于处理高维数据，因为它的计算复杂度不会随着数据维度的增加而大幅增加。

代码示例

import numpy as np
from sklearn.neighbors import NearestNeighbors
from sklearn.utils import resample

# 加载数据集
X = np.loadtxt('data.csv', delimiter=',')
y = np.loadtxt('labels.csv', delimiter=',')

# 识别少数类样本
minority_class = np.unique(y)[np.argmin(np.bincount(y))]

# 创建 ENN 对象
enn = NearestNeighbors(n_neighbors=5)
enn.fit(X[y == minority_class])

# 获取距离少数类样本最近的多数类样本索引
majority_class_indices = np.flatnonzero(y != minority_class)
distances = enn.kneighbors(X[majority_class_indices], return_distance=True)[0]
sorted_indices = np.argsort(distances, axis=1)

# 移除距离少数类样本最远的多数类样本
for i in range(5):
    X = np.delete(X, majority_class_indices[sorted_indices[:, i]], axis=0)
    y = np.delete(y, majority_class_indices[sorted_indices[:, i]])