Válasszon nyelvet

   +(36) 88 624 021 |    dekanititkarsag@mik.uni-pannon.hu |    8200 Veszprém, Egyetem utca 10. I. épület

Válasszon nyelvet

Tárgyfelelős: Dr. Fogarassyné dr. Vathy Ágnes egyetemi docens, Dr. Dulai Tibor egyetemi adjunktus

 

A tárgy a következő tárgyak ismeretét tételezi fel, azokra épít:

 

Tematika

Az alábbi témakörökkel kapcsolatos ismereteket sajátítják el egyéni képzési tervüket és érdeklődésüket is figyelembe véve a hallgatók:

T1. A megerősítéses tanulás alapfogalmai 

A megerősítéses tanulás fogalma, jellemzői és a kapcsolódó fogalmak (reward, environment, state, history). A megerősítéses tanulás fő komponensei (policy, value function, model). A megerősítéses tanuláson belüli problémakörök (learning – planning, exploration – exploitation, prediction – control, on-policy learning – off-policy learning).

T2. Markov-folyamatok és a modell alapú megoldási módszerek

Markov Reward Processes és azok megoldása, Markov Decision Processes és azok megoldása. A Bellman Expectation Equation és a Bellman Optimality Equation összehasonlítása szerepük és formájuk alapján. Planning dinamikus programozás alkalmazásával (policy evaluation, policy iteration és value iteration).

T3. Model-free megerősítéses tanulás

Model-free prediction (Mote Carlo Learning, Temporal-Difference Learning és TD(λ)). Model-free control (on-policy módszerek: Monte Carlo Learning, on-policy Temporal-Difference Learning és Sarsa (λ), valamint off-policy Learning: importance sampling és a Q-learning).

 

Az értékelés egy, a fenti témakörökhöz kapcsolódó egyéni projekt feladat kidolgozása alapján történik. 

 

Irodalom

1.      Richard S. Sutton, Andrew G. Barto: Reinforcement learning: An introduction, The MIT Press, 2015.

2.      David Silver: RL Course by David Silver, DeepMind, 2015.