利用动态规划求解马尔可夫决策过程 (Planning by Dynamic Programming)

范叶亮 at 
本文为《强化学习系列》文章 123 动态规划动态规划(Dynamic Programming,DP)是一种用于解决具有如下两个特性问题的通用算法:优化问题可以分解为子问题。子问题出现多次并可以被缓存和复用。马尔可夫决策过程正符合这两个特性:贝尔曼方程给定了迭代过程的分解。价值函数保存并复用了解决方案。在强化学习中,DP 的核心思想是使用价值函数来结构化地组织对最优策略的搜索。一旦得到了满足贝尔曼最优方程的价值函数 $v_*$ 或 $q_*$,得到最优策略就容易了。对于任意 $s \in \mathcal{S}$(状态集合),$a \in \mathcal{A} \left(s\right)$(……