李宏毅强化学习课程笔记 Imitation Learning

算法花园 at 
我的笔记汇总:Policy Gradient、PPO: Proximal Policy Optimization、Q-LearningActor CriticSparse RewardImitation Learningapprenticeship learning 无法从环境中获得 reward。某些任务中很难定义 reward。人为设计的奖励可能导致意外的行为。学习专家的行为。Behavior Cloning 监督学习,但是样本有限。Dataset Aggregation 通过行为克隆得到 actor \(\pi_1\)利用 \(\pi_1\) 和环境交互得到一些新的样本由专家对上一步采样……