Schița de curs
Introducere
- Învățarea prin întărire pozitivă
Elemente de Reinforcement Learning
Termeni importanți (acțiuni, stări, recompense, politică, valoare, valoare Q etc.)
Prezentare generală a metodelor de soluții tabelare
Crearea unui agent software
Înțelegerea abordărilor bazate pe valoare, pe politici și pe modele
Lucrul cu procesul de decizie Markov (MDP)
Cum definesc politicile modul de comportament al unui agent?
Utilizarea metodelor Monte Carlo
Învățare prin diferență temporală
n-step Bootstrapping
Metode de soluționare aproximativă
Predicția pe politică cu aproximație
Controlul pe politică cu aproximație
Metode fără politică cu aproximare
Înțelegerea urmelor de eligibilitate
Utilizarea metodelor de gradient de politică
Rezumat și concluzii
Cerințe
- Experiență cu învățarea mașinilor
- Programming experiență .
Audiență
- Științifici de date