news 2026/3/13 0:29:18

大白话讲强化学习的核心概念

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大白话讲强化学习的核心概念

强化学习就是:做一件事 →立刻有好坏感受→ 把所有将来的好坏折算成现在的分数

强化学习过程

参考阅读:An Introduction to Deep Reinforcement Learning

强化学习过程:状态、动作、奖励和下一个状态的循环

想象一个智能体正在学习玩平台游戏:

  • 我们的 Agent 从环境中接收状态S 0 S_0S0—— 我们收到游戏的第一帧(环境)。
  • 基于状态S 0 S_0S0,Agent 采取动作A 0 A_0A0—— 我们的 Agent 将向右移动。
  • 环境进入新的状态S 1 S_1S1—— 新的帧。
  • 环境向智能体给予一些奖励R 1 R_1R1—— 我们没有死亡(正奖励+ 1 +1+1

这个强化学习循环输出状态、动作、奖励和下一个状态的序列。

智能体的目标是最大化其累计奖励,称为期望回报。

什么是 奖励函数R ( s , a , a ′ ) R(s,a,a')R(s,a,a)

奖励函数 =环境对你“这一步行为”的打分规则。奖励不是你自己决定的,而是环境给你的反馈。

用生活例子理解,你在玩一个闯关游戏:

  • 状态s ss:你现在在第 3 步
  • 动作a aa:你选择“向右走”
  • 下一状态s ′ s's:你走到了第 4 步

这时游戏系统给你一个提示:

  • “+10 分”(过关)
  • 或 “-1 分”(撞墙)
  • 或 “0 分”(啥也没发生)

这个打分规则就是奖励函数

为什么写成R ( s , a , s ′ ) R(s,a,s')R(s,a,s)三个变量?
因为奖励可能取决于这三件事

什么是 状态价值函数?

  • 即时奖励r t + 1 r_{t+1}rt+1你在第t tt步做完动作后,立刻得到的奖励

    比如:

    时间步你做的事得到的奖励
    t = 0 t=0t=0向右走− 1 -11
    t = 1 t=1t=1向右走− 1 -11
    t = 2 t=2t=2到终点+ 10 +10+10
  • 折扣因子γ \gammaγ:为什么未来的奖励不如现在的值钱

    想象两个选择:

    • 现在给你100 100100
    • 一年后给你100 100100

    你更想要哪个?现在的更值钱,这就是折扣因子γ \gammaγ的直觉。

  • γ t r t + 1 \gamma^t r_{t+1}γtrt+1把“将来得到的奖励”按时间远近打折


    举个具体数值,设γ = 0.9 \gamma = 0.9γ=0.9

    时间奖励折扣后价值
    现在t = 0 t=0t=0− 1 -11− 1 -11
    下一步t = 1 t=1t=1− 1 -11− 0.9 -0.90.9
    再下一步t = 2 t=2t=2+ 10 +10+100. 9 2 × 10 = 8.1 0.9^2 × 10 = 8.10.92×10=8.1

    离现在越远,权重越小

  • 状态价值函数从当前状态开始,一直玩下去,未来所有奖励的“折算总分”
    V ( s ) = E [ ∑ t = 0 ∞ γ t r t + 1 ] V(s) = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r_{t+1} \right]V(s)=E[t=0γtrt+1]

什么是 Bellman 最优方程?

核心思想:现在值多少钱 = 现在这一步的奖励 + 未来状态的价值

你在状态s ss

  1. 你选一个动作a aa
  2. 立刻得到奖励r rr
  3. 进入新状态s ′ s's
  4. 未来还能拿V ( s ′ ) V(s')V(s)这么多分

那:你现在的总价值 = 现在得分 + 未来能得的分

V ( s ) = max ⁡ a ∑ s ′ P ( s ′ ∣ s , a ) [ R ( s , a , s ′ ) + γ V ( s ′ ) ] V(s) = \max_a \sum_{s'} P(s'|s,a) \Big[ R(s,a,s') + \gamma V(s') \Big]V(s)=amaxsP(ss,a)[R(s,a,s)+γV(s)]

逐项翻译:

数学符号人话
max ⁡ a \max_amaxa选最好的动作
P ( s ′ ∣ s , a ) P(s' | s,a)P(ss,a)做了这事后,可能会去哪
R ( s , a , s ′ ) R(s,a,s')R(s,a,s)立刻得多少分
γ V ( s ′ ) \gamma V(s')γV(s)未来还能得多少分

策略π \piπ:代理的大脑

策略π \piπ是智能体的大脑,它是一个函数,告诉在给定当前状态时应采取什么动作。因此它定义了智能体在特定时刻的行为。

这个策略是我们希望学习的函数,我们的目标是找到最优策略π \piπ,即在智能体按该策略行动时能够最大化期望回报的策略。我们通过训练来找到该π ∗ \pi^*π

有两种方法来训练我们的智能体寻找这个最优策略π ∗ \pi^*π

  • 直接地,通过让智能体学习在给定状态下应采取的动作基于策略的方法

    在基于策略的方法中,直接学习策略函数。此函数将把每个状态映射到该状态下的最佳对应动作,或者映射到该状态下所有可能动作的概率分布。

    • 确定性:在给定状态下的策略始终返回相同的动作
    • 随机:输出动作的概率分布
  • 间接地,让智能体学习哪些状态更有价值,然后采取能够引向更有价值状态的行动:基于价值的方法

    在基于价值的方法中,我们不是训练策略函数,而是训练一个价值函数,将状态映射到该状态的期望价值。

    “按照我们的策略行动”仅意味着我们的策略是“前往价值最高的状态”。

    由于我们的价值函数,在每一步中,我们的策略会选择由价值函数定义的最大值状态:− 7 -77,然后是− 6 -66,再是− 5 -55(依此类推),以实现目标。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/2 18:32:01

网易云音乐NCM转MP3完整指南:简单三步搞定音频转换

网易云音乐NCM转MP3完整指南:简单三步搞定音频转换 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的NCM格式文件无法在其他播放器播放而烦恼吗?NCM转MP3的音频格式转换其实很简单&#…

作者头像 李华
网站建设 2026/3/13 9:21:38

力扣(LeetCode) 28: 找出字符串中第一个匹配项的下标 - 解法思

问题概述 给定两个字符串 needle 和 haystack,返回 needle 在 haystack 中第一次出现的下标,如果 needle 不是 haystack 的一部分则返回 -1。 解法 1:暴力匹配带切片(推荐) 工作原理 通过比较子字符串检查 haystack 中每个可能的起始位置: class Solution:def strSt…

作者头像 李华
网站建设 2026/3/9 11:48:15

【开题答辩全过程】以 基于JSP的物流信息网的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/3/9 17:34:00

Unity游戏翻译革命:XUnity.AutoTranslator深度解析与实战指南

Unity游戏翻译革命:XUnity.AutoTranslator深度解析与实战指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 引言:打破语言壁垒的技术革新 你是否曾因语言障碍而放弃心仪的游戏&…

作者头像 李华
网站建设 2026/3/13 12:40:22

ComfyUI-Manager界面按钮消失问题全解析与解决方案

ComfyUI-Manager界面按钮消失问题全解析与解决方案 【免费下载链接】ComfyUI-Manager 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-Manager 当你在使用ComfyUI进行AI创作时,突然发现Manager按钮从界面消失了,这确实令人沮丧。别担心&a…

作者头像 李华