流式深度强化学习突破“流式壁垒”：“意图更新”算法性能比肩SAC，计算量仅1/140-开发者社区

一脚油门，开出了多大的坑

传统梯度学习的步长规定参数每次移动多大，但对函数输出改变多少缺乏控制。就像驾车学习停车入库，教练规定每次「踩油门0.1秒」，但不同路况下车子前进距离差异大，有时差一厘米入库，有时差30厘米撞墙。在批量训练时，样本误差平均后问题不明显，但在「流式」环境下，每步只有一个样本，无平均可言，梯度方向不稳定会导致更新幅度忽大忽小，学习过程崩溃。这种「过冲与欠冲」现象在强化学习中尤为严重，因为每个时间步的梯度幅度和方向变化大。

重新定义「一步该做多少」

Openmind研究院的Arsalan Sharifnassab与阿尔伯塔大学的Mohamed Elsayed、A. Rupam Mahmood和Richard Sutton等人，在近日发表的论文中提出换个角度思考的方案：与其指定参数移动多少，不如直接指定函数输出该改变多少。

这个想法并非凭空而来，1967年日本学者Nagumo和Noda在自适应滤波领域提出「归一化最小均方差」（NLMS）算法，本质是用期望的输出变化反推步长，但该算法只适用于简单线性场景。研究者将此思路推广到深度强化学习，提出「意图更新」：每次更新前明确「希望这一步实现什么」，然后反推出步长。

对于价值学习，定义的意图是每次更新后，当前状态的价值预测误差缩小固定比例，如5%；对于策略学习，定义的意图是当前动作的选择概率每步只允许改变「适度」的量。用驾车比喻，就是司机先决定「让车向前移动20厘米」，再根据路况自动计算踩油门深度。

图灵奖得主与他的拼图

论文署名之一是2024年图灵奖得主Richard S. Sutton，他被称为「现代强化学习之父」。Sutton提出了时间差分学习和策略梯度两个现代强化学习基础框架，还与Andrew Barto合著该领域权威教材《Reinforcement Learning: An Introduction》。他与Barto于2024年共享图灵奖，奖项评语是「为强化学习奠定了概念与算法基础」。

获奖后，Sutton将奖金投入创立的Openmind研究院，资助探索基础问题的年轻研究者。论文一作Sharifnassab此前在ICML 2025发表了MetaOptimize框架，研究在线自动调整学习率，两个课题都关注如何让步长更智能。

算法细节：比想象中简洁

「意图更新」的数学推导不复杂，核心公式为步长等于「期望的输出变化量」除以「梯度方向对输出的实际影响力」。在价值学习中，「实际影响力」是梯度向量的范数，越陡的地方步长越小，越平的地方步长越大，保证每次更新对价值函数的冲击一致。在策略学习中，「期望变化量」与优势函数成比例，通过跑动平均归一化量级，确保策略改变幅度稳定。

研究者还将核心思想与RMSProp风格的对角缩放和资格迹结合，形成三个完整算法：用于价值预测的Intentional TD (λ)、用于离散动作控制的Intentional Q (λ)，以及用于连续控制的Intentional Policy Gradient。

实验结果：不靠GPU也能打平SAC

论文在多个标准基准上评估该方法，结果令人印象深刻。在MuJoCo连续控制任务上，新方法Intentional AC在流式设置下的最终性能多次接近甚至比肩SAC，而每次Intentional AC更新所需的浮点运算只有一次SAC更新的约1/140。在Atari和MinAtar离散动作游戏上，Intentional Q - learning的表现与使用回放缓冲区的DQN相当，且用同一套超参数设置跑通全部任务，无需逐个调参。

研究者验证了「意图」是否实现，测量实际更新量与预期更新量的比值，在禁用资格迹的简化设置下，该比值标准差仅为0.016到0.029，99分位数均在1.07以内，说明更新基本做到「说好要做多少就做多少」。消融实验表明，去掉RMSProp归一化或σ项后性能有所下降但仍有竞争力，「意图缩放」是首要贡献者，其他组件是辅助。

问题还是有的

「意图更新」框架在鲁棒性上有明显优势，去掉StreamX方法依赖的稳定化辅助技巧时，Intentional AC的性能退化少于原始StreamAC，说明意图缩放减少了对外部「拐杖」的依赖。

但论文也指出未完全解决的问题：策略学习中，步长依赖当前采样动作，会使不同动作被赋予不同「权重」，可能改变策略梯度的期望方向。在Humanoid和HumanoidStandup任务中，该偏差影响小；但在Ant - v4中，对齐度降至中位数0.63，问题不能忽视。作者指出未来应寻找对动作无关的步长选择策略，使「意图」在期望意义下无偏。