MATLAB R2022a强化学习工具箱实战：手把手教你用Q-learning搞定一个8状态MDP问题-开发者社区

MATLAB R2022a强化学习工具箱实战：8状态MDP问题的Q-learning解决方案

在工业自动化和智能决策领域，马尔可夫决策过程（MDP）是建模序列决策问题的经典框架。MATLAB R2022a的强化学习工具箱为这类问题提供了直观的解决方案，特别适合快速原型开发和算法验证。本文将带您完整实现一个8状态MDP问题的Q-learning训练流程，从环境构建到策略验证，每个步骤都配有可执行的代码片段和参数调优建议。

1. 环境搭建与MDP建模

1.1 初始化MDP结构

首先需要明确问题场景：我们设计一个具有8个离散状态的路径选择问题，每个状态有两个可选动作（"上"和"下"）。状态转换关系如下图所示：

状态图示例： s1 →(上/3) s2 →(上/2) s4 →(上/3) s7(终态) ↘(下/1) s3 →(上/2) s5 →(下/9) s8(终态) ↘(下/4) s6 →(上/5) s7 ↘(下/1) s8

在MATLAB中创建基础MDP模型：

% 创建8状态2动作的MDP模型 MDP = createMDP(8, ["up"; "down"]); % 设置状态转移矩阵(T)和奖励矩阵(R) % 格式：MDP.T(当前状态, 下一状态, 动作编号) = 转移概率 % MDP.R(当前状态, 下一状态, 动作编号) = 即时奖励 % 状态1的转移配置 MDP.T(1,2,1) = 1; % s1→s2 via "up" MDP.R(1,2,1) = 3; MDP.T(1,3,2) = 1; % s1→s3 via "down" MDP.R(1,3,2) = 1; % 状态2-6的转移配置（示例部分） MDP.T(2,4,1) = 1; MDP.R(2,4,1) = 2; MDP.T(2,5,2) = 1; MDP.R(2,5,2) = 1; ...

1.2 终止状态与初始设置

定义终止状态并配置环境复位函数：

% 指定s7和s8为终止状态 MDP.TerminalStates = ["s7"; "s8"]; % 创建强化学习环境 env = rlMDPEnv(MDP); % 设置初始状态为s1 env.ResetFcn = @() 1; % 固定随机种子保证可重复性 rng(2023);

2. Q-learning代理配置

2.1 Q表初始化与参数设置

Q-learning的核心是维护一个状态-动作价值表。MATLAB中通过rlTable实现：

% 获取环境的观测和动作空间信息 obsInfo = getObservationInfo(env); actInfo = getActionInfo(env); % 初始化Q表 qTable = rlTable(obsInfo, actInfo); % 配置代理选项 agentOpts = rlQAgentOptions; agentOpts.DiscountFactor = 0.95; % 折扣因子

2.2 探索策略配置

平衡探索与利用是强化学习的关键，ε-greedy策略的典型配置：

% ε-greedy探索参数 agentOpts.EpsilonGreedyExploration.Epsilon = 0.9; % 初始探索率 agentOpts.EpsilonGreedyExploration.EpsilonDecay = 0.005; % 衰减率 % 学习率设置 agentOpts.CriticOptimizerOptions = rlOptimizerOptions(... 'LearnRate', 0.1, ... 'GradientThreshold', 1);

注意：较高的初始Epsilon值(0.9)适合早期充分探索，而较小的EpsilonDecay确保训练后期仍有适度探索

2.3 代理创建

完成Q函数和代理的实例化：

% 创建Q值函数 qFunction = rlQValueFunction(qTable, obsInfo, actInfo); % 实例化Q-learning代理 qAgent = rlQAgent(qFunction, agentOpts);

3. 训练过程与参数调优

3.1 训练选项配置

合理的训练参数能显著提升学习效率：

trainOpts = rlTrainingOptions; trainOpts.MaxStepsPerEpisode = 100; % 每回合最大步数 trainOpts.MaxEpisodes = 1000; % 最大训练回合数 trainOpts.StopTrainingCriteria = "AverageReward"; trainOpts.StopTrainingValue = 15; % 目标奖励阈值 trainOpts.ScoreAveragingWindowLength = 30; % 平均奖励计算窗口 trainOpts.SaveAgentCriteria = "EpisodeReward"; trainOpts.SaveAgentValue = 10; % 保存表现好的代理

3.2 训练执行与监控

启动训练并观察学习曲线：

doTraining = true; % 切换训练/加载模式 if doTraining trainingStats = train(qAgent, env, trainOpts); else load('trainedQAgent.mat', 'qAgent'); end % 绘制训练曲线 plot(trainingStats.EpisodeReward); hold on; movAvg = movmean(trainingStats.EpisodeReward, 30); plot(movAvg, 'LineWidth', 2); xlabel('Episode'); ylabel('Reward'); legend('单次回报', '30次滑动平均');

典型训练曲线特征：

早期阶段：奖励波动大，代理在探索环境
中期阶段：平均奖励稳步上升
后期阶段：性能趋于稳定，探索率降低

4. 结果验证与策略分析

4.1 策略验证

在训练环境中测试代理表现：

simData = sim(qAgent, env); cumulativeReward = sum(simData.Reward); disp(['累计奖励: ', num2str(cumulativeReward)]); % 显示状态访问序列 stateTrajectory = simData.Observation.'; disp('状态转移路径:'); disp(stateTrajectory);

4.2 Q表分析

检查学习到的Q值表：

QTable = getLearnableParameters(getCritic(qAgent)); QValues = QTable{1}; % 可视化Q值 imagesc(QValues); colorbar; xlabel('动作'); ylabel('状态'); set(gca, 'XTickLabel', ["up", "down"]); title('状态-动作价值函数');

典型Q表特征分析：

终止状态的Q值应为0
最优路径上的状态-动作对应较高Q值
危险转移对应的动作应有较低Q值

4.3 参数影响分析

关键参数对训练效果的影响对比：

参数	典型值范围	过高影响	过低影响
学习率	0.01-0.2	可能导致Q值震荡	学习速度慢
折扣因子	0.9-0.99	过于重视远期奖励	近视决策
Epsilon初始值	0.5-0.9	早期探索充分但收敛慢	可能陷入局部最优
Epsilon衰减率	0.001-0.01	探索快速减少	后期仍有过多随机动作

5. 高级技巧与问题排查

5.1 收敛问题处理

当训练出现以下现象时可能需要调整：

奖励不增长：尝试增大Epsilon或学习率
奖励波动大：减小学习率，增大EpsilonDecay
过早收敛：检查Epsilon是否衰减过快

% 动态调整示例 if trainingStats.EpisodeReward(end) < 5 && agentOpts.EpsilonGreedyExploration.Epsilon < 0.2 agentOpts.EpsilonGreedyExploration.Epsilon = 0.5; % 重新增加探索 end

5.2 并行训练加速

利用MATLAB的并行计算功能：

trainOpts.UseParallel = true; trainOpts.ParallelizationOptions.Mode = "async"; trainOpts.ParallelizationOptions.DataToSendFromWorkers = "gradients";

5.3 自定义奖励函数

通过修改环境奖励实现更复杂的目标：

function newReward = customRewardFcn(state, action, nextState) baseReward = MDP.R(state, nextState, action); % 添加路径长度惩罚 newReward = baseReward - 0.1; end env.RewardFcn = @customRewardFcn;

6. 实际应用扩展

将本案例扩展到更复杂场景时考虑：

增加状态维度时需调整Q表结构
连续状态空间需改用函数逼近器
多智能体场景需独立配置环境

% 大规模状态示例 bigMDP = createMDP(100, ["left","right","up","down"]); % 使用深度Q网络(DQN)替代Q表 criticOpts = rlOptimizerOptions('LearnRate',1e-3); criticNetwork = [featureInputLayer(1), fullyConnectedLayer(64), reluLayer, fullyConnectedLayer(4)]; critic = rlVectorQValueFunction(criticNetwork, obsInfo, actInfo);