news 2026/2/25 2:49:16

强化学习中的单个回合的回报估计动作值和所有回合的回报估计动作值的理解及exploring starts条件

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习中的单个回合的回报估计动作值和所有回合的回报估计动作值的理解及exploring starts条件

你的核心困惑就一个:“单个回合到底是多长的路径?是不是走一步就是一个回合?”
答案直接给你:不是走一步!单个回合是“从任意起始状态出发,一直走到终止状态(比如目标/失败)的完整路径”——和“所有回合”的“回合”是同一个定义!

两者的区别根本不在“回合的长度/定义”,而在“用多少个回合的回报来算动作值Q(s,a)”——我用最极端的对比(只看一个动作值Q(S1,A右)),让你秒懂:

前提设定(极简版,避免复杂)

  • 环境:1×5网格(S1→S2→S3→S4→S5),S5是目标(r=10),其他状态无即时奖励(r=0),γ=1(无折扣);
  • 只关注一个动作值:Q(S1,A右)(从S1走“右”动作的动作值);
  • 回合定义:从任意状态出发,走到S5(终止),就是一个完整回合。

一、所有回合的回报平均值(MC Basic)

核心逻辑:用「多个回合」中S1→A右的回报,求平均算Q(S1,A右)
  1. 先跑3个完整回合(每个回合都是走到S5才结束):
    • 回合1:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G1=10(因为只有S5给10);
    • 回合2:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G2=10;
    • 回合3:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G3=10;
  2. 算Q(S1,A右):用这3个回合的回报求平均
    Q(S1,A右) = (G1 + G2 + G3) / 3 = (10+10+10)/3 = 10;
  3. 关键:必须攒够“所有要用到的回合”,再一次性算平均——这里用了3个回合的回报。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/18 14:06:24

Vue.js 事件处理器

Vue.js 事件处理器 引言 在Web开发中,事件处理器是前端开发中非常重要的一部分。Vue.js作为一款流行的前端框架,提供了丰富的内置事件处理机制,使得开发者可以更加方便地处理用户交互。本文将详细介绍Vue.js的事件处理器,包括事件绑定、事件修饰符、自定义事件等内容。 …

作者头像 李华
网站建设 2026/2/21 19:10:52

【YOLOv12多模态创新改进】独家创新改进首发| SCI一区Top 2025 | 引入CIMFusion 跨模态交互特征融合模块,增强可见光和红外图像之间的特征交互,含多种创新改进,顶会顶刊发文热点

一、本文介绍 🔥本文给大家介绍使用 CIMFusion 跨模态交互特征融合模块 改进 YOLOv12 的多模态目标检测模型,通过跨模态注意力机制有效融合可见光和红外图像的特征,提升了模型对多模态信息的利用效率。在恶劣天气或复杂环境下,CIM 模块增强了模型的鲁棒性和泛化能力,帮助…

作者头像 李华
网站建设 2026/2/21 12:48:17

Java毕设选题推荐:基于SpringBoot智慧学生校舍系统设计与实现基于springboot的学生宿舍管理系统的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/2/24 20:12:37

基于stm32的河流检测系统

文章目录 摘要一、系统功能二、总体设计程序 三、效果图源码获取 摘要 随着科技的进步,经济的发展,水污染问题日益严重,尤其以河流资源的污染情况更加严重。通过对现有河流河流水质检测仪进行研究,制定总体设计方案,主…

作者头像 李华
网站建设 2026/2/24 10:36:43

计算机小程序毕设实战-基于springboot+小程序的睡眠健康管理系统小程序基于Java的微信小程序睡眠健康管理系统的设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/2/20 15:34:07

例说FPGA:可直接用于工程项目的第一手经验【3.6】

17.5 软件程序解析 1.main.c源文件软件程序解析 main.c的函数列表如表17-3所示。 表17-3 main.c文件的函数列表 2.int main(void)函数 该函数为主函数,其流程图如图17-16所示。在各种外设初始化后,首先让LCD显示预先存储在Flash中的背景图片;接着对波形显示窗口进行初始…

作者头像 李华