返回

2 PAC 学习框架:了解算法如何从有限数据中学习

人工智能

在机器学习领域,PAC 学习框架是一个重要的理论基础,它为我们提供了理解算法如何从有限数据中学习的数学工具。在这个框架中,我们首先定义了概念类(concept class)和学习算法(learning algorithm)的概念。概念类是一组由算法预测函数(hypothesis function)构成的集合,学习算法则是一种从有限的训练样本中选择出一个预测函数的过程。

PAC 学习框架的核心概念之一是一致性(consistency)。一致性是指学习算法能够在给定的训练样本上预测出正确的标签。更正式地,如果对于任何概念类C和任何分布D,存在一个学习算法A,使得对于任何训练样本集S,算法A在S上的预测误差都小于ε,那么我们就说学习算法A对于概念类C和分布D是一致的。

另一个重要的概念是泛化误差(generalization error)。泛化误差是指学习算法在新的、未见过的样本上预测错误的概率。PAC 学习框架表明,一致性是泛化误差的一个上界,即对于任何概念类C和任何分布D,如果存在一个学习算法A对于C和D是一致的,那么算法A在D上的泛化误差也小于ε。

PAC 学习框架还为我们提供了确定学习算法所需的样本数量(样本复杂度)的方法。样本复杂度是指为了达到给定的泛化误差,学习算法所需的训练样本数量。PAC 学习框架表明,样本复杂度与概念类的复杂度(即概念类中假设函数的数量)以及泛化误差的大小有关。

PAC 学习框架是一个强大的理论工具,它为我们提供了理解算法如何从有限数据中学习的基础。它不仅可以帮助我们分析算法的性能,还可以帮助我们设计出新的、更有效的学习算法。

2.2 有限假设集的保证 —— 一致情况

在本章的开篇,我们检查了轴对齐矩形的问题。该问题有4个假设:{R_1, R_2, R_3, R_4},它有一个在有限集合上最小的版本:

{\cal H} = \{ R_1, R_2 \}

在2.1节中,我们只展示了{{\cal H}}的最优假设是{R_1}。但是,它并不唯一。{R_2} 也是最优的,因为在训练数据上,{R_2} 产生与 {R_1} 一样的错误。也就是说,对于我们的训练数据而言,{R_1}{R_2} 都是一致的。

一般来说,假设集\cal H 可能有许多一致的假设。为了更全面地理解一致性,我们必须查看假设集\cal H 中所有假设的平均行为。为了测量这种行为,我们定义了假设集的一致性。

定义 假设集\cal H关于分布\cal D和错误容限\epsilon>0的一致性,指对于任意的训练样本S,均存在假设h\in {\cal H},满足

Pr_{x\sim {\cal D}}[h(x)\ne c(x)]\le \epsilon

在该定义中,期望是相对于从分布\cal D中独立同分布的样本x而言的。换句话说,假设集{\cal H} 是一致的,如果在合理大的训练样本下,存在一些假设在未来新样本中的平均错误率低于 \epsilon。一致性是学习算法性能的一个基本属性,也是我们所寻求的算法最基本的目标。显然,一个不一致的学习算法不会对将来出现的新样本进行准确的预测。

在轴对齐矩形问题中,我们观察到一致性与假设集的大小密切相关。然而,这并不是一个巧合。一致性与假设集的大小之间存在着一般关系,它可以通过统计学习理论中的基本结果来捕捉,我们将在随后的内容中进行阐述。

一致性是机器学习理论的一个基本概念。它为我们提供了判断算法性能的标准,并帮助我们设计出更有效的学习算法。