深入解析动手学深度学习4.5 正则化：权重衰退简洁实现

2023-12-14 10:37:26

权重衰退：防止深度学习模型过拟合的利器

什么是权重衰退？

在机器学习中，过拟合是一个常见问题，即模型在训练数据集上表现出色，但在新数据上表现不佳。这是因为模型变得过于复杂，捕捉到了训练数据中的噪音和异常值，而不是学习到数据背后的基本规律。

权重衰退是一种正则化技术，旨在通过惩罚模型的复杂度来解决过拟合问题。它向损失函数添加一项惩罚项，该惩罚项与模型权重的平方成正比。

权重衰退的原理

权重衰退通过修改损失函数来实现：

Loss = Loss_original + λ * Weight_decay * ∑(w^2)

其中：

Loss_original 是原始损失函数。
λ 是权重衰退超参数。
w 是模型权重。

超参数 λ 控制正则化强度的程度。λ 值越大，对模型权重的惩罚越大。

权重衰退的优点

防止过拟合： 权重衰退通过惩罚模型的复杂度来防止过拟合，从而提高模型的泛化能力。
促进模型权重竞争： 权重衰退鼓励模型权重之间的竞争，这促使模型学习更通用的特征。
提高模型鲁棒性： 权重衰退可以提高模型的鲁棒性，使其不易受到训练数据噪声和异常值的影响。

权重衰退的局限性

可能降低训练速度： 权重衰退可能会降低模型的训练速度，因为需要额外计算正则化项。
欠拟合风险： 如果 λ 超参数选择不当，可能会导致欠拟合，即模型过于简单，无法捕捉数据中的复杂性。

代码示例

在 TensorFlow Keras 中，可以通过 kernel_regularizer 参数指定权重衰退的正则化器：

import tensorflow as tf

model = tf.keras.Sequential([
    tf.keras.layers.Dense(128, activation='relu', kernel_regularizer=tf.keras.regularizers.l2(0.001))
])

optimizer = tf.keras.optimizers.Adam()
loss_fn = tf.keras.losses.MeanSquaredError()

for epoch in range(100):
    # ...
    with tf.GradientTape() as tape:
        predictions = model(input)
        loss = loss_fn(predictions, target)
        reg_loss = tf.reduce_sum(model.losses)
        total_loss = loss + reg_loss

    gradients = tape.gradient(total_loss, model.trainable_weights)
    optimizer.apply_gradients(zip(gradients, model.trainable_weights))