《Reinforcement Learning of Large Language Models, Spring 2025》
这是一门关于大语言模型强化学习的课程,内容全面涵盖了深度强化学习与自然语言处理两个领域。课程内容分为三个部分:
1. 讲义部分:包含引言、深度强化学习、大语言模型以及大语言模型的强化学习四个章节;
2. 视频讲座:从基础的马尔科夫决策过程、模仿学习、深度策略评估,到深度策略梯度(如A3C、PPO、GRPO)、AlphaGo及专家迭代,再到自然语言处理的语言建模、循环神经网络、Transformer架构(BERT、GPT-1等)、以及上下文学习与指令微调,最后涉及基于人类反馈和可验证奖励的强化学习方法;
3. 课程附加信息:课程由UCLA数学系助理教授Ernest K. Ryu主讲。课程要求具有图像分类层面的深度学习基础,对强化学习或大语言模型不要求有先前经验,但需要熟悉条件期望和全期望定律等数学概念。
更多详情请参考原推文链接:ernestryu.com/courses/RL-LLM.html。
该课程不仅系统讲解技术原理,还结合了业界最新进展,适合希望深入理解AI技术交叉点的同学。