马尔可夫决策过程 (Markov Decision Process)

范叶亮 at 
本文为《强化学习系列》文章 123 马尔可夫模型马尔可夫模型是一种用于序列数据建模的随机模型,其假设未来的状态仅取决于当前的状态,即:$$ \mathbb{P} \left[S_{t+1} | S_t\right] = \mathbb{P} \left[S_{t+1} | S_1, \cdots, S_t\right] $$也就是认为当前状态捕获了历史中所有相关的信息。根据系统状态是否完全可被观测以及系统是自动的还是受控的,可以将马尔可夫模型分为 4 种,如下表所示:状态状态完全可被观测系统状态不是完全可被观测状态是自动的马尔可夫链(MC)隐马尔可夫模型(HMM)系统是受控的马尔可夫决策过程(……