从零入门强化学习（二）

人工智能

2023-01-08 18:06:07

强化学习：掌握智能代理决策的艺术

什么是强化学习？

强化学习是人工智能的一个分支，它允许代理在与环境的互动中学习最优行为。代理是与环境交互并做出决策的实体，而环境则提供反馈和奖励来塑造代理的行为。

马尔可夫决策过程 (MDP)

强化学习使用称为马尔可夫决策过程 (MDP) 的数学模型来代理和环境之间的交互。MDP由状态空间、动作空间、奖励函数和状态转移概率组成：

状态空间： 代理可以占据的所有可能状态的集合。
动作空间： 代理在每个状态可以执行的所有可能动作的集合。
奖励函数： 它指定代理在执行特定动作时从特定状态获得的奖励。
状态转移概率： 它指定代理在执行特定动作后从特定状态转移到另一个状态的概率。

最优值函数

最优值函数是给定状态代理采取最优动作的预期奖励的函数。它可以通过贝尔曼方程来计算，贝尔曼方程是将最优值函数表示为当前奖励和最优后续值函数期望值之和的递归方程。

Q 学习

Q 学习是一种无模型的强化学习算法，它通过学习状态-动作值函数来解决 MDP 问题。状态-动作值函数给定一个状态-动作对，返回代理在该状态下执行该动作的预期奖励。Q 学习算法通过迭代更新状态-动作值函数来学习最优策略。

SARSA

SARSA（状态-动作-奖励-状态-动作）是一种基于模型的强化学习算法，它通过学习状态-动作-奖励-状态-动作五元组序列来解决 MDP 问题。SARSA 算法通过迭代更新状态-动作值函数来学习最优策略。

代码示例：使用 Q 学习解决网格世界问题

import numpy as np
import random

# 定义网格世界环境
class GridWorld:
    def __init__(self):
        self.grid = np.zeros((5, 5))
        self.start_state = (0, 0)
        self.goal_state = (4, 4)
        self.actions = [(0, 1), (1, 0), (-1, 0), (0, -1)]  # 右、下、左、上

    def reset(self):
        self.state = self.start_state
        return self.state

    def step(self, action):
        new_state = tuple(np.array(self.state) + action)
        if new_state in [(0, 0), (4, 4)]:  # 边界或目标状态
            reward = 0
        else:
            reward = -1
        self.state = new_state
        return self.state, reward, False

# 定义 Q 学习算法
class QLearning:
    def __init__(self, env):
        self.env = env
        self.Q = np.zeros((env.grid.shape[0], env.grid.shape[1], len(env.actions)))  # Q 表
        self.learning_rate = 0.5
        self.discount_factor = 0.9

    def choose_action(self, state):
        return random.choice(self.env.actions)

    def update(self, state, action, reward, next_state):
        self.Q[state[0], state[1], action] += self.learning_rate * (reward + self.discount_factor * np.max(self.Q[next_state[0], next_state[1], :]) - self.Q[state[0], state[1], action])

# 训练 Q 学习算法
env = GridWorld()
agent = QLearning(env)
for episode in range(1000):
    state = env.reset()
    while True:
        action = agent.choose_action(state)
        next_state, reward, done = env.step(action)
        agent.update(state, action, reward, next_state)
        state = next_state
        if done:
            break

# 测试 Q 学习算法
state = env.reset()
while True:
    action = np.argmax(agent.Q[state[0], state[1], :])
    next_state, reward, done = env.step(action)
    state = next_state
    if done:
        break