自动求导进阶用法：揭秘独门绝技，让梯度计算更加得心应手

2024-02-07 17:49:47

自动求导 Mode：灵活选择计算图的构建方式

自动求导 Mode允许我们在计算图的构建过程中指定不同的模式，从而影响计算图的构建方式和导数的计算方式。常用的 Mode 有两种：

torch.enable_grad()：启用梯度计算，此时计算图中的所有张量都会记录梯度信息，并在反向传播时计算出导数。
torch.no_grad()：禁用梯度计算，此时计算图中的所有张量都不会记录梯度信息，也不会计算导数。

# 启用梯度计算
torch.enable_grad()

# 进行一些计算
x = torch.randn(5, 3, requires_grad=True)
y = x.sum()

# 反向传播计算梯度
y.backward()

# 打印梯度
print(x.grad)

# 禁用梯度计算
torch.no_grad()

# 进行一些计算
x = torch.randn(5, 3, requires_grad=True)
y = x.sum()

# 反向传播计算梯度
y.backward()

# 打印梯度
print(x.grad)  # None

从上面的示例中可以看到，在启用梯度计算的 Mode 下，x 的梯度会被计算出来，而在禁用梯度计算的 Mode 下，x 的梯度则不会被计算。

backward_hook：自定义反向传播行为

backward_hook允许我们在反向传播过程中对每个张量的梯度进行自定义操作。这在某些情况下非常有用，例如：

想对某些张量的梯度进行截断或归一化。
想在反向传播过程中打印或记录某些张量的梯度。
想在反向传播过程中对某些张量的梯度进行其他自定义操作。

def my_backward_hook(grad):
    # 对梯度进行自定义操作
    grad = grad.clamp(-1, 1)
    return grad

# 注册自定义反向传播挂钩
x.register_hook(my_backward_hook)

# 进行一些计算
y = x.sum()

# 反向传播计算梯度
y.backward()

# 打印梯度
print(x.grad)

从上面的示例中可以看到，我们通过注册自定义反向传播挂钩，对 x 的梯度进行了截断操作，将梯度限制在 -1 到 1 之间。

计算图保留：保存计算图以便多次使用

计算图保留允许我们保存计算图，以便在以后多次使用。这在某些情况下非常有用，例如：

想对同一个计算图进行多次反向传播，以计算不同输入或参数的梯度。
想对计算图进行可视化或分析。
想将计算图保存到文件或数据库中，以便以后使用。

# 启用计算图保留
torch.set_grad_enabled(True)

# 进行一些计算
x = torch.randn(5, 3, requires_grad=True)
y = x.sum()

# 保存计算图
torch.save(y, 'my_computation_graph.pt')

# 重新加载计算图
y = torch.load('my_computation_graph.pt')

# 反向传播计算梯度
y.backward()

# 打印梯度
print(x.grad)

从上面的示例中可以看到，我们通过保存和重新加载计算图，可以对同一个计算图进行多次反向传播，以计算不同输入或参数的梯度。

高阶导：计算导数的导数

高阶导允许我们计算导数的导数。这在某些情况下非常有用，例如：

想研究学习算法的收敛性或稳定性。
想对优化算法进行超参数优化。
想对神经网络进行二阶优化。

# 启用高阶导计算
torch.set_grad_enabled(True)

# 进行一些计算
x = torch.randn(5, 3, requires_grad=True)
y = x.sum()
z = y.sum()

# 计算一阶导数
first_order_grad = torch.autograd.grad(z, x)

# 计算二阶导数
second_order_grad = torch.autograd.grad(first_order_grad, x)

# 打印二阶导数
print(second_order_grad)

从上面的示例中可以看到，我们通过调用 torch.autograd.grad() 函数，计算了一阶导数和二阶导数。