揭秘 L1 和 L2 正则化：通俗易懂的机器学习入门

人工智能

2023-12-16 03:44:39

在机器学习中，过拟合是一个挥之不去的幽灵，它让模型在训练数据中表现出色，但在现实世界中却惨遭滑铁卢。为了驱除这个魔鬼，一种名为正则化的神秘咒语应运而生。其中，L1 和 L2 正则化是它的两大法宝，威力无穷。

但问题来了，这些正则化项究竟从何而来？它们又为何具有如此神通？就让这篇通俗易懂的文章，为你揭开机器学习中 L1 和 L2 正则化的神秘面纱。

L1 正则化：用稀疏之美，剪除冗余

想象一下，你正在建造一座摩天大楼，但建筑材料异常丰富。于是，你任性地堆砌，一层又一层，奢华至极。然而，这种无节制的放纵，最终导致大楼摇摇欲坠。

同理，机器学习模型的参数也是如此。如果参数太多，模型就会变得过于复杂，形成一座华丽但脆弱的摩天大楼。L1 正则化就是解决这个问题的妙招。

它通过在损失函数中添加一个额外的项来惩罚大参数值，从而限制模型的复杂性。这个惩罚项就像一把锋利的剪刀，无情地剪除冗余参数，只留下那些真正重要的。

L2 正则化：用平滑之手，抑制极端

现在，想象另一座摩天大楼，它是由坚固的钢筋混凝土浇筑而成。虽然它不易坍塌，但过于刚硬，缺乏灵活性。L2 正则化则扮演了钢筋的角色。

它在损失函数中添加了一个与参数值平方成正比的惩罚项，从而抑制参数值的极端变化。这种惩罚机制如同一位温柔的按摩师，轻柔地抚平模型的棱角，使其更加平滑柔韧。

选择之匙：根据任务量身定制

那么，是选择 L1 还是 L2 正则化呢？这取决于模型的具体需求。

对于具有大量特征的模型，L1 正则化更胜一筹。因为它会产生稀疏解，即许多特征的参数值为零。这在特征选择和解释模型方面非常有用。

相反，对于特征较少的模型，L2 正则化更合适。它产生的是连续解，可防止模型过分拟合，提高泛化能力。

实例演示：代码说话

让我们用代码来演示如何应用正则化。假设我们有一个包含 100 个特征的数据集，需要训练一个线性回归模型。

使用 L1 正则化：

import sklearn.linear_model as lm
from sklearn.preprocessing import StandardScaler

# 标准化数据
scaler = StandardScaler()
X = scaler.fit_transform(X)
y = scaler.fit_transform(y)

# 训练模型
model = lm.LinearRegression()
model.fit(X, y)

# 添加 L1 正则化
model.set_params(alpha=0.1)

使用 L2 正则化：

import sklearn.linear_model as lm
from sklearn.preprocessing import StandardScaler

# 标准化数据
scaler = StandardScaler()
X = scaler.fit_transform(X)
y = scaler.fit_transform(y)

# 训练模型
model = lm.LinearRegression()
model.fit(X, y)

# 添加 L2 正则化
model.set_params(C=0.1)