返回

小数据大回归,梳理篇

人工智能

小小回归大世界,梳理篇

本文是继《小数据回归的框架》之后的又一篇探索小数据回归天地的文章,沿着框架的脉络,对小数据回归做一次全面的梳理。

为方便起见,我们先将小数据回归中可能用到的各种基础理论集中罗列。当然,在梳理具体的理论时,我们并不会用到这里罗列的全部理论,而是有针对性地选择部分理论。

小数据回归中的理论基础

  • 统计学习理论: 刻画了学习算法从经验风险到泛化风险的推广界。
  • 大数定律: 保证了在数据量足够大时,经验风险收敛到期望风险。
  • 中心极限定理: 刻画了经验风险在数据量较大时近似服从正态分布的性质。
  • 自助法: 一种通过有放回的随机抽样,从原始数据集创建多个子数据集的方法。
  • 交叉验证: 一种评价学习算法泛化能力的统计方法。
  • 贝叶斯统计: 一种将先验知识纳入统计模型的统计方法。
  • 信息论: 提供了一种度量和比较概率分布的方法。

回归小数据,模型大不同

1. 普通回归模型

小数据回归最朴素的方法是直接套用普通回归模型。比如,对于线性回归,我们直接用普通二次回归(OLS)估计模型参数。OLS的优点是简单直接,计算高效。然而,它对小数据并不十分友善,原因在于:

  • OLS估计要求自变量与因变量呈线性关系,这在小数据中很难保证。
  • OLS估计容易受到异常值和噪声的干扰,而小数据中往往存在异常值和噪声。

2. 岭回归(Lasso、Elastic Net)

岭回归(Ridge Regression)是一种针对小数据而生的回归模型。它在OLS的基础上,向目标函数中加入了一个惩罚项,以防止模型过拟合。岭回归对自变量与因变量的线性关系要求较低,对异常值和噪声也较不mnop感。

3. 局部加权回归(LOESS、LOWESS)

LOESS(Locally Weighted Scatterplot Smoothing)是一种非参数回归模型。它通过对数据点赋予不同的权重,在每个点周围拟合一个加权线性回归模型。LOESS对小数据非常友善,因为:

  • 它不需要自变量与因变量呈线性关系。
  • 它能自动识别和剔除异常值。

4. 核回归(KRR)

KRR(Kernel Ridge Regression)是一种将核方法引入回归模型的技术。它通过将原始数据映射到一个更高维的特征空间,在高维空间中进行线性回归。KRR可以有效解决小数据中的非线性问题。

5. 贝叶斯回归

贝叶斯回归是一种基于贝叶斯统计的回归模型。它将模型参数看作随机变量,并利用先验知识对参数进行估计。贝叶斯回归可以有效利用小数据中的信息,并能提供模型参数的不确定性估计。

从模型选择到预测应用

1. 模型选择

对于给定的小数据回归问题,我们如何选择最合适的模型呢?这需要用到一系列的模型选择技术,比如:

  • 交叉验证: 将数据集划分为训练集和验证集,反复训练模型并计算验证误差,选择验证误差最小的模型。
  • 赤池信息量准则(AIC): 一种基于信息论的模型选择准则,综合考虑模型的拟合能力和复杂度。
  • 贝叶斯信息量准则( ſhe): 一种类似于AIC的模型选择准则,但考虑了模型参数的不确定性。

2. 预测应用

一旦我们选择了最合适的模型,就可以用它来对新数据进行预测。然而,在小数据回归中,预测时需要格外谨慎,因为小数据容易出现过拟合。为了防止过拟合,可以采用以下策略:

  • 交叉验证预测: 将数据集划分为多个子集,每次在不同的子集上训练模型并进行预测,最后汇总预测结果。
  • 自助法预测: 使用自助法生成多个子数据集,在每个子数据集上训练模型并进行预测,最后汇总预测结果。
  • 贝叶斯预测: 利用贝叶斯统计框架,将模型参数的不确定性考虑在预测中。

结语

小数据回归是一个充满挑战但又极具前景的领域。通过对小数据回归模型、模型选择和预测应用的全面梳理,我们希望能够为广大读者提供一个全面的了解和参考。在未来的文章中,我们会进一步深入探讨小数据回归中的具体技术和应用。