Adam 深度学习优化器的剖析

2024-02-09 14:43:53

在当今的机器学习领域，Adam（自适用 момент 估计）优化器已成为诸多复杂网络模型的首选优化器。尽管其受欢迎程度居高不下，但对于其内部运作机制的深入了解却并不普及。本文旨在弥合此知识鸿沟，详细剖析 Adam 优化器的原理和应用，以便读者对该强大工具的运用更加得心应手。

Adam 优化器的原理

Adam 是由 Kinga 和 Ba 在 2015 年提出的一种一级优化算法。与传统的一阶优化器（如梯度下降和 RMSprop）不同，Adam 引入了自适用 момент估计的概念，在降低噪声和加速收敛性方面表现出显著优势。

Adam 的运作机制基于两个时刻估计值：一阶 момент（m_t）和二阶 момент（v_t）。一阶时刻估计值追踪梯度的移动平均值，而二阶时刻估计值则追踪梯度平方的移动平均值。通过这些估计值，Adam 能够在每个时间步长自适应该学习率，从而有效应对不同训练数据集和模型架构的差异。

Adam 的优点

Adam 优化器在诸多应用中备受青睐，原因如下：

快速收敛： 自适用 момент 估计使 Adam 能够快速且有效地收敛到最优值，即使对于具有复杂地形的高维函数也是如此。
低噪声： 二阶时刻估计值有助于降低梯度估计中的噪声，使收敛过程更加平滑。
无需手动学习率调整： 自适应该学习率消除了手动调整学习率的需要，简化了模型的训练过程。
对超参数不那么 població： Adam 对超参数（如学习率和动量）的选择相对不那么，减少了优化器的调优时间。

在实践中应用 Adam

要将 Adam 优化器应用于您的机器学习模型，只需遵循以下步骤：

确定要优化目标函数的参数集合。
初始化一阶时刻估计值 m_0 和二阶时刻估计值 v_0 为零向量。
在每个训练批次中，计算目标函数对参数的梯度。
更新一阶时刻估计值 m_t 和二阶时刻估计值 v_t。
计算自适用学习率 \alpha_t。
使用 \alpha_t 和梯度更新模型参数。

调优 Adam 优化器

虽然 Adam 通常对超参数不那么，但以下技巧可以进一步提升其性能：

调整学习率： 尽管 Adam 具有自适用学习率，但对于某些问题，可能需要微调初始学习率以实现最佳收敛。
增加或减小动量： 对于嘈杂的梯度，增加动量（β1 和 β2）可以进一步平滑收敛过程。对于非常平滑的梯度，减小动量可以加速收敛。
使用不同的优化算法： 对于特定的问题，其他优化算法（如 RMSprop 或 L-BFGS）可能比 Adam 更能产生效果。

对于技术向导

要使用 Adam 优化器优化自定义机器学习模型，请使用以下 Python 代码段：

import numpy as np

class Adam:
    def __init__(self, parameters, learning_rate=0.001, beta1=0.9, beta2=0.999):
        self.parameters = parameters
        self.learning_rate = learning_rate
        self.beta1 = beta1
        self.beta2 = beta2
        self.m = np.zeros_like(parameters)
        self.v = np.zeros_like(parameters)
        self.t = 0

    def step(self, gradients):
        self.t += 1
        self.m = self.beta1 * self.m + (1 - self.beta1) * gradients
        self.v = self.beta2 * self.v + (1 - self.beta2) * np.square(gradients)
        self.parameters -= self.learning_rate * self.m / (np.sqrt(self.v) + 1e-8)