强化学习中的策略迭代与Q学习算法详解
1. 基于模拟的策略迭代
在强化学习中,策略改进通常被称为行动者(actor),若涉及神经网络,则称为行动者网络。策略迭代每次迭代需要进行两个操作:
-评估当前策略 $\mu_k$(评判者,critic):算法、系统和模拟器融为一体,系统通过在策略 $\mu_k$ 下生成模拟成本样本“自我观察”,然后将这些样本组合起来“学习”策略评估 $\tilde{J}{\mu_k}$。通常通过某种增量方法实现,涉及使用成本样本进行最小二乘最小化,可采用线性架构或神经网络。
-改进当前策略 $\mu_k$(行动者,actor):给定近似策略评估 $\tilde{J}{\mu_k}$,系统通过最小化以下式子生成新策略 $\mu_{k+1}$:
- $\mu_{k+1}(i) \in \arg \min_{u \in U(i)} \sum_{j=1}^{n} p_{ij}(u) \left[ g(i, u, j) + \alpha \tilde{J}{\mu_k}(j) \right]$,$i = 1, \ldots, n$。
- 或者,系统可以在一组样本状态 $i_s$($s = 1, \ldots, q$)上计算最小化控制 $u_s$:
- $u_s \in \arg \min{u \in U(i_s)} \sum_{j=1}^{n} p_{i_s j}(u) \left[ g(i_s, u, j) + \alpha \tilde{J}_{\mu_k}(j) \right]$。
基于模拟的策略