李宏毅强化学习课程笔记 Sparse Reward

我的笔记汇总：Policy Gradient、PPO: Proximal Policy Optimization、Q-LearningActor CriticSparse RewardImitation LearningReward Shaping 如果 reward 分布非常稀疏的时候，actor 会很难学习，所以刻意设计 reward 引导模型学习。Curiosity Intrinsic Curiosity module (ICM)在原来 Reward 函数的基础上，引入 ICM 函数。ICM 鼓励模型去探索新的动作。最后 ICM 和 Reward 和越大越好。鼓励探索新动作之后，会导致系……