李宏毅强化学习课程笔记 Sparse Reward

算法花园 at 
我的笔记汇总:Policy Gradient、PPO: Proximal Policy Optimization、Q-LearningActor CriticSparse RewardImitation LearningReward Shaping 如果 reward 分布非常稀疏的时候,actor 会很难学习,所以刻意设计 reward 引导模型学习。Curiosity Intrinsic Curiosity module (ICM)在原来 Reward 函数的基础上,引入 ICM 函数。ICM 鼓励模型去探索新的动作。最后 ICM 和 Reward 和越大越好。鼓励探索新动作之后,会导致系……