驰骋Q-learning世界：从零基础到轻松入门！

2023-10-17 11:02:00

强化学习与Q-learning

强化学习是一种无需监督，仅通过与环境交互学习的行为学习方法。它模拟动物学习的过程，通过对周围环境的试错和反馈来获取最佳行动策略。而Q-learning算法则是强化学习领域的一颗璀璨明珠，它通过学习状态-动作值函数Q(s,a)来选择最佳行动，从而实现最优决策。

Q-learning算法原理

Q-learning算法的核心在于不断更新Q值，使之收敛于最优值。其更新公式如下：

Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha[r_t + \gamma \max_a Q(s_{t+1}, a) - Q(s_t, a_t)]

其中：

Q(s_t, a_t)：状态s_t采取动作a_t所获得的Q值
r_t：采取动作a_t后收到的立即奖励
\gamma：折扣因子
\alpha：学习率
Q(s_{t+1}, a)：下一状态s_{t+1}采取动作a所获得的Q值

Q-learning算法流程

初始化Q值表，通常将其值设为0。
在当前状态s_t选择一个动作a_t，可以采用ε-贪婪策略来平衡探索和利用。
执行动作a_t，并观察环境反馈的奖励r_t和下一状态s_{t+1}。
使用Q值更新公式更新Q值：

Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha[r_t + \gamma \max_a Q(s_{t+1}, a) - Q(s_t, a_t)]

重复步骤2~4，直到达到收敛条件或最大迭代次数。

Q-learning算法示例

让我们通过一个简单的示例来理解Q-learning算法的运作。假设我们有一个一维的世界，小明只能控制自己的加速度，并且只能对加速度进行如下三种操作：增加1、减少1、保持不变。小明的目标是到达终点，并获得尽可能多的奖励。

import numpy as np

# 定义环境
class Environment:
    def __init__(self):
        self.position = 0  # 小明的位置
        self.goal = 100  # 终点位置

    def step(self, action):  # 小明采取动作
        self.position += action  # 更新小明的位置
        reward = 0  # 奖励
        if self.position == self.goal:  # 到达终点
            reward = 100  # 获得奖励
        return self.position, reward, self.position == self.goal  # 返回新位置、奖励和是否到达终点

# 定义智能体
class Agent:
    def __init__(self, env):
        self.env = env  # 环境
        self.Q = np.zeros((env.goal + 1, 3))  # Q值表
        self.epsilon = 0.1  # ε-贪婪策略中的ε值
        self.alpha = 0.1  # 学习率
        self.gamma = 0.9  # 折扣因子

    def choose_action(self, state):  # 选择动作
        if np.random.rand() < self.epsilon:  # 探索
            return np.random.choice([0, 1, 2])  # 随机选择动作
        else:  # 利用
            return np.argmax(self.Q[state, :])  # 选择Q值最大的动作

    def learn(self, state, action, reward, next_state):  # 学习
        self.Q[state, action] += self.alpha * (reward + self.gamma * np.max(self.Q[next_state, :]) - self.Q[state, action])

# 创建环境和智能体
env = Environment()
agent = Agent(env)

# 训练智能体
for episode in range(1000):  # 训练1000个回合
    state = 0  # 初始状态
    while True:  # 直到到达终点
        action = agent.choose_action(state)  # 选择动作
        next_state, reward, done = env.step(action)  # 执行动作并观察反馈
        agent.learn(state, action, reward, next_state)  # 学习
        state = next_state  # 更新状态
        if done:  # 到达终点
            break

# 测试智能体
state = 0
while True:  # 直到到达终点
    action = agent.choose_action(state)  # 选择动作
    next_state, reward, done = env.step(action)  # 执行动作并观察反馈
    print("小明的位置：{}, 奖励：{}".format(next_state, reward))  # 输出小明的位置和奖励
    state = next_state  # 更新状态
    if done:  # 到达终点
        break