Schița de curs

Introducere

  • Învățarea prin întărire pozitivă

Elements din Reinforcement Learning

Termeni importanți (acțiuni, stări, recompense, politică, valoare, valoare Q etc.)

Prezentare generală a metodelor de soluții tabulare

Crearea unui agent software

Înțelegerea abordărilor bazate pe valori, pe politici și pe modele

Lucrul cu procesul decizional Markov (MDP)

Cum definesc politicile modul de comportament al unui agent

Utilizarea metodelor Monte Carlo

Învățarea diferențelor temporale

n-step Bootstrapping

Metode de soluționare aproximativă

Predicția pe politici cu aproximare

Controlul în funcție de politică cu aproximare

Metode în afara politicii cu aproximare

Înțelegerea urmelor de eligibilitate

Utilizarea metodelor Gradient de politică

Rezumat și concluzie

Cerințe

  • Experiență cu învățarea automată
  • Programming experiență

Audiență

  • Oameni de știință în domeniul datelor
 21 ore

Numărul de participanți


Pret per participant

Upcoming Courses