策略梯度：强化学习中的无模型方法

2023-12-24 07:37:18

策略梯度：优化强化学习策略的强大技术

什么是策略梯度？

强化学习（RL）旨在让计算机通过与环境交互来学习最佳行为。策略梯度是一种无模型 RL 技术，它直接优化策略以最大化累积奖励。它不需要对环境进行显式建模，而是在与环境的互动中学习最佳策略。

理解期望奖励

在 RL 中，期望奖励是指在给定状态下执行特定动作时获得的未来奖励的预期值。它是采取该动作的长期收益。期望奖励公式为：

Q(s, a) = E[Σγ^t * R(s_t, a_t) | s_0 = s, a_0 = a]

其中：

Q(s, a)：在状态 s 下执行动作 a 的期望奖励
E[·]：期望值运算符
γ：折扣因子（0 ≤ γ ≤ 1）
R(s_t, a_t)：在时间步 t 采取动作 a_t 时在状态 s_t 获得的奖励
s_0：初始状态
a_0：初始动作

策略梯度定理

策略梯度定理提供了计算策略梯度的公式，它表示策略参数的变化如何影响期望奖励的变化。对于确定性策略 π(a | s)，策略梯度可以表示为：

∇_θ J(π) = E[Σγ^t * R(s_t, a_t) * ∇_θ log π(a_t | s_t) | s_0 ~ p(s_0)]

其中：

J(π)：策略 π 的期望累积奖励
θ：策略参数
∇_θ：关于 θ 的梯度
p(s_0)：初始状态分布

策略梯度定理告诉我们，期望奖励的梯度与策略梯度的期望值成正比。这意味着，通过遵循策略梯度并调整策略参数，我们可以增加期望奖励。

策略优化

策略优化是策略梯度方法的关键部分。它涉及使用策略梯度定理来更新策略参数，从而增加期望奖励。策略优化过程如下：

初始化策略参数： 从一组初始策略参数 θ_0 开始。
收集数据： 与环境交互并收集状态-动作对和奖励的样本。
计算策略梯度： 使用策略梯度定理计算策略梯度 ∇_θ J(π)。
更新策略参数： 使用梯度上升方法更新策略参数 θ_i，使其朝向期望奖励梯度的方向移动：

θ_i+1 = θ_i + α * ∇_θ J(π)

其中，α 是学习率。

重复步骤 2-4： 直到策略收敛或达到最大迭代次数。

示例

让我们考虑一个格子世界示例，其中代理必须学会导航到目标状态。我们使用策略梯度方法优化代理的策略，使其最大化累积奖励。

步骤 1：初始化策略参数

我们初始化策略参数 θ 为每个状态的所有可能动作的均匀分布。

步骤 2：收集数据

我们让代理与环境交互，收集状态-动作对和奖励的样本。

步骤 3：计算策略梯度

我们使用策略梯度定理计算策略梯度。

步骤 4：更新策略参数

我们使用梯度上升方法更新策略参数，使它们朝向期望奖励梯度的方向移动。

步骤 5：重复步骤 2-4

我们重复步骤 2-4 直到代理学会导航到目标状态。

代码示例

import numpy as np

class Agent:
    def __init__(self, env):
        self.env = env
        self.policy = np.random.rand(env.action_space.n)

    def get_action(self, state):
        return np.argmax(self.policy * self.env.action_space.probabilities(state))

    def update_policy(self, state, action, reward):
        gradient = self.env.compute_gradient(state, action, reward)
        self.policy += gradient * self.env.learning_rate

env = GridWorld()
agent = Agent(env)

for episode in range(1000):
    state = env.reset()
    done = False

    while not done:
        action = agent.get_action(state)
        next_state, reward, done, _ = env.step(action)
        agent.update_policy(state, action, reward)
        state = next_state