Schița de curs

Introducere

  • Învățarea prin recompensă pozitivă

Elemente ale Învățării prin Recompensă

Termeni Importanți (Acțiuni, Stări, Recompense, Politică, Valoare, Q-Valoare, etc.)

Prezentare generală a Metodelor de Soluții Tabulate

Crearea unui Agent Software

Înțelegerea Abordărilor Bazate pe Valoare, Politică și Model

Lucrul cu Procesul Decizional Markov (MDP)

Cum Politicile Definește Modul de Comportare al unui Agent

Utilizarea Metodelor Monte Carlo

Învățarea Diferențială Temporală

n-step Bootstrapping

Metode Aproximative de Soluție

Predicție On-policy cu Aproximare

Control On-policy cu Aproximare

Metode Off-policy cu Aproximare

Înțelegerea Urmelelor de Eligibilitate

Utilizarea Metodelor Gradient de Politică

Rezumat și Concluzii

Cerințe

  • Experiență cu învățarea automată
  • Experiență în programare

Publicul țintă

  • Specialiști în știința datelor
 21 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite