Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Introducere
- Învățarea prin recompensă pozitivă
Elemente ale Învățării prin Recompensă
Termeni Importanți (Acțiuni, Stări, Recompense, Politică, Valoare, Q-Valoare, etc.)
Prezentare generală a Metodelor de Soluții Tabulate
Crearea unui Agent Software
Înțelegerea Abordărilor Bazate pe Valoare, Politică și Model
Lucrul cu Procesul Decizional Markov (MDP)
Cum Politicile Definește Modul de Comportare al unui Agent
Utilizarea Metodelor Monte Carlo
Învățarea Diferențială Temporală
n-step Bootstrapping
Metode Aproximative de Soluție
Predicție On-policy cu Aproximare
Control On-policy cu Aproximare
Metode Off-policy cu Aproximare
Înțelegerea Urmelelor de Eligibilitate
Utilizarea Metodelor Gradient de Politică
Rezumat și Concluzii
Cerințe
- Experiență cu învățarea automată
- Experiență în programare
Publicul țintă
- Specialiști în știința datelor
21 Ore