Schița de curs

Introducere în Învățarea prin Recompensă

  • Ce este învățarea prin recompensă?
  • Concepte cheie: agent, mediu, stări, acțiuni și recompense
  • Provocări în învățarea prin recompensă

Explorare și Exploatare

  • Echilibrarea explorării și exploatării în modelele RL
  • Strategii de explorare: epsilon-greedy, softmax și altele

Q-Learning și Rețele Q Profunde (DQNs)

  • Introducere în Q-learning
  • Implementarea DQNs folosind TensorFlow
  • Optimizarea Q-learning cu replay de experiență și rețele țintă

Metode Bazate pe Politici

  • Algoritmi de gradient de politică
  • Algoritmul REINFORCE și implementarea sa
  • Metode actor-critic

Lucrul cu OpenAI Gym

  • Configurarea mediilor în OpenAI Gym
  • Simularea agenților în medii dinamice
  • Evaluarea performanței agenților

Tehnici Avansate de Învățare prin Recompensă

  • Învățarea prin recompensă multi-agent
  • Gradient de politică determinist profund (DDPG)
  • Optimizare de politică proximală (PPO)

Implementarea Modelelor de Învățare prin Recompensă

  • Aplicații din lumea reală ale învățării prin recompensă
  • Integrarea modelelor RL în medii de producție

Rezumat și Pași Următori

Cerințe

  • Experiență în programare Python
  • Înțelegere de bază a conceptelor de învățare profundă și învățare automată
  • Cunoașterea algoritmilor și a conceptelor matematice utilizate în învățarea prin recompensă

Publicul Țintă

  • Oameni de știință de date
  • Practicieni în învățarea automată
  • Cercetători în IA
 28 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite