利用动态规划求解马尔可夫决策过程 (Planning by Dynamic Programming)

本文为《强化学习系列》文章 123 动态规划动态规划（Dynamic Programming，DP）是一种用于解决具有如下两个特性问题的通用算法：优化问题可以分解为子问题。子问题出现多次并可以被缓存和复用。马尔可夫决策过程正符合这两个特性：贝尔曼方程给定了迭代过程的分解。价值函数保存并复用了解决方案。在强化学习中，DP 的核心思想是使用价值函数来结构化地组织对最优策略的搜索。一旦得到了满足贝尔曼最优方程的价值函数 $v_*$ 或 $q_*$，得到最优策略就容易了。对于任意 $s \in \mathcal{S}$（状态集合），$a \in \mathcal{A} \left(s\right)$（……