news 2026/2/7 7:57:30

WorldModel_M000_Concept

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
WorldModel_M000_Concept

RSSM的世界模型 loss 本质是 ELBO:观测重建(+奖励预测)项,减去一个把后验拉向先验的 KL 正则项。

策略:从状态到动作(或动作分布)的映射。

重建是h,z->o,r和o,r的差

KL是h,a,o -> z和 h,a -> z的差

critic(值函数)是在 world model 里、沿着当前策略(actor)生成的想象轨迹,回归“想象回报目标(λ-return)”的神经网络

创新点在于不改环境奖励,只改策略学习时的“风险调整回报目标”,让 value/advantage 自动把高不确定/高风险区域判成“低价值”,从而把 actor 推向更保守的行为。

强化学习是让智能体在环境里试错互动:根据状态选动作,环境给奖励并转移到下一状态。目标最大化长期累计回报。通常要么学价值函数评估动作好坏,或直接学策略并处理探索和利用的权衡。

世界模型就是一个学出来的环境近似:输入当前隐状态(由当前观测+历史记忆编码得到)和动作,预测下一步隐状态以及奖励。它的意义是:用少量真实交互把模型校准后,可以在模型里快速 rollout 多步,来做规划或训练策略/值函数,让每一步真实数据更值钱、更省样本。

隐状态是世界模型和真实观测之间的桥:观测历史压缩成一个内部状态st=(ht,zt)s_t=(h_t,z_t)st=(ht,zt),其中hth_tht负责记忆历史,ztz_tzt负责表达不确定性。真实交互时用观测把隐状态校正成后验,想象时只用(隐状态+动作)推进到下一步并预测奖励。

隐状态和世界模型让离散的s,a->r映射建模为了一套可导的函数,从而把昂贵、不可反传的真实交互,替换成模型里低成本的多步 rollout(想象/模拟经验);并且因为这条计算链是可导的,‘长期回报/价值’的优化信号可以在模型内反向传播到要学习的函数(策略/值函数)参数上——所以同样一段真实数据能被反复利用、触发更多次更新,显著提高样本效率。

真实交互昂贵指“数据获取成本”(慢/危险/难并行/有预算),世界模型用可并行算力在模型内生成多步想象经验,从而减少所需真实交互步数,提高样本效率。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/4 16:17:35

预装Pandas+Matplotlib!PyTorch镜像让数据分析可视化一步到位

预装PandasMatplotlib!PyTorch镜像让数据分析可视化一步到位 在深度学习项目开发中,一个稳定、高效、开箱即用的开发环境是提升研发效率的关键。然而,搭建环境常常成为“第一道坎”:依赖冲突、源慢、包缺失、GPU配置失败……这些…

作者头像 李华
网站建设 2026/2/4 1:08:42

Open-AutoGLM连接失败怎么办?常见问题全解

Open-AutoGLM连接失败怎么办?常见问题全解 你是不是也遇到过这样的情况:明明按照教程一步步操作,可一运行 adb devices 却看不到设备,或者启动 AI 代理时提示“连接被拒绝”?别急,这几乎是每个初次使用 Op…

作者头像 李华
网站建设 2026/2/6 21:44:45

手机号逆向查询QQ号:5分钟快速上手完整指南

手机号逆向查询QQ号:5分钟快速上手完整指南 【免费下载链接】phone2qq 项目地址: https://gitcode.com/gh_mirrors/ph/phone2qq 还在为忘记QQ密码无法找回而烦恼?或者需要验证某个手机号是否真的绑定了QQ?这个简单实用的Python工具让…

作者头像 李华
网站建设 2026/2/5 1:49:39

Steam成就管理完全指南:3步掌握免费开源工具的高效使用技巧

Steam成就管理完全指南:3步掌握免费开源工具的高效使用技巧 【免费下载链接】SteamAchievementManager A manager for game achievements in Steam. 项目地址: https://gitcode.com/gh_mirrors/st/SteamAchievementManager 还在为Steam游戏中那些难以达成的成…

作者头像 李华
网站建设 2026/2/5 16:52:09

如何快速将Markdown转换为专业PPT:自动化工具完全指南

如何快速将Markdown转换为专业PPT:自动化工具完全指南 【免费下载链接】md2pptx Markdown To PowerPoint converter 项目地址: https://gitcode.com/gh_mirrors/md/md2pptx 在当今快节奏的工作环境中,文档转换效率直接影响项目进度。Markdown转PP…

作者头像 李华
网站建设 2026/2/6 23:07:21

魔兽争霸III技术优化终极方案:从问题诊断到实战应用深度解析

魔兽争霸III技术优化终极方案:从问题诊断到实战应用深度解析 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 魔兽争霸III作为经典的即时战…

作者头像 李华