Tárgyfelelős: Dr. Fogarassyné dr. Vathy Ágnes egyetemi docens, Dr. Dulai Tibor egyetemi adjunktus
A tárgy a következő tárgyak ismeretét tételezi fel, azokra épít:
-
Tematika
Az alábbi témakörökkel kapcsolatos ismereteket sajátítják el egyéni képzési tervüket és érdeklődésüket is figyelembe véve a hallgatók:
T1. A megerősítéses tanulás alapfogalmai
A megerősítéses tanulás fogalma, jellemzői és a kapcsolódó fogalmak (reward, environment, state, history). A megerősítéses tanulás fő komponensei (policy, value function, model). A megerősítéses tanuláson belüli problémakörök (learning – planning, exploration – exploitation, prediction – control, on-policy learning – off-policy learning).
T2. Markov-folyamatok és a modell alapú megoldási módszerek
Markov Reward Processes és azok megoldása, Markov Decision Processes és azok megoldása. A Bellman Expectation Equation és a Bellman Optimality Equation összehasonlítása szerepük és formájuk alapján. Planning dinamikus programozás alkalmazásával (policy evaluation, policy iteration és value iteration).
T3. Model-free megerősítéses tanulás
Model-free prediction (Mote Carlo Learning, Temporal-Difference Learning és TD(λ)). Model-free control (on-policy módszerek: Monte Carlo Learning, on-policy Temporal-Difference Learning és Sarsa (λ), valamint off-policy Learning: importance sampling és a Q-learning).
Az értékelés egy, a fenti témakörökhöz kapcsolódó egyéni projekt feladat kidolgozása alapján történik.
Irodalom
1. Richard S. Sutton, Andrew G. Barto: Reinforcement learning: An introduction, The MIT Press, 2015.
2. David Silver: RL Course by David Silver, DeepMind, 2015.