Schița de curs

Introducere

  • Învățarea prin întărire pozitivă

Elemente de Reinforcement Learning

Termeni importanți (acțiuni, stări, recompense, politică, valoare, valoare Q etc.)

Prezentare generală a metodelor de soluții tabelare

Crearea unui agent software

Înțelegerea abordărilor bazate pe valoare, pe politici și pe modele

Lucrul cu procesul de decizie Markov (MDP)

Cum definesc politicile modul de comportament al unui agent?

Utilizarea metodelor Monte Carlo

Învățare prin diferență temporală

n-step Bootstrapping

Metode de soluționare aproximativă

Predicția pe politică cu aproximație

Controlul pe politică cu aproximație

Metode fără politică cu aproximare

Înțelegerea urmelor de eligibilitate

Utilizarea metodelor de gradient de politică

Rezumat și concluzii

Cerințe

  • Experiență cu învățarea mașinilor
  • Programming experiență
  • .

Audiență

  • Științifici de date
 21 ore

Numărul de participanți


Pret per participant