RL Crash Course

Welcome to the RL Crash Course, a concise introduction to key concepts in Reinforcement Learning (RL). This course covers fundamental RL algorithms, from value-based methods to policy optimization techniques.

You’ll explore:

Q Learning and Deep Q Networks (DQN) – Learning optimal policies using value iteration and deep neural networks.
Policy Gradient Methods – Directly optimizing policies for continuous and discrete action spaces.
Actor-Critic Architectures – Combining value-based and policy-based methods for more stable learning.
Proximal Policy Optimization (PPO) – A widely used on-policy optimization method balancing exploration and exploitation.
GRPO (Group Relative Policy Optimization) – A reinforcement learning method originally designed for LLM.

The chapters are,

Q Learning and DQN
Policy Gradient
Actor-Critic
PPO
GRPO

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search