Schița de curs

1. Introducere în Învățarea Profundă prin Reforțare

  • Ce este Învățarea prin Reforțare?
  • Diferența dintre Învățarea Supervizată, Nesupervizată și Învățarea prin Reforțare
  • Aplicații ale DRL în 2025 (robotică, sănătate, finanțe, logistică)
  • Înțelegerea buclei de interacțiune agent-mediu

2. Fundamentele Învățării prin Reforțare

  • Procese Decizionale Markov (MDP)
  • Funcții de Stare, Acțiune, Recompensă, Politică și Valoare
  • Compromisul Explorare vs. Exploatare
  • Metode Monte Carlo și Învățarea Temporal-Diferențială (TD)

3. Implementarea Algoritmilor de Bază RL

  • Metode tabelare: Programare Dinamică, Evaluare Politică și Iterare
  • Q-Learning și SARSA
  • Explorare epsilon-lacomă și strategii de decădere
  • Implementarea mediilor RL cu OpenAI Gymnasium

4. Tranziția la Învățarea Profundă prin Reforțare

  • Limitările metodelor tabelare
  • Utilizarea rețelelor neuronale pentru aproximarea funcțiilor
  • Arhitectura și fluxul de lucru Deep Q-Network (DQN)
  • Reluarea experienței și rețelele țintă

5. Algoritmi Avansați DRL

  • Double DQN, Dueling DQN și Reluarea Prioritizată a Experienței
  • Metode de Gradient Politic: Algoritmul REINFORCE
  • Arhitecturi Actor-Critic (A2C, A3C)
  • Optimizarea Politicii Proximale (PPO)
  • Actor-Critic Soft (SAC)

6. Lucrul cu Spații Continue de Acțiune

  • Provocări în controlul continuu
  • Utilizarea DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Instrumente și Cadre Practice

  • Utilizarea Stable-Baselines3 și Ray RLlib
  • Logare și monitorizare cu TensorBoard
  • Acordarea hiperparametrilor pentru modelele DRL

8. Ingineria Recompenselor și Proiectarea Mediilor

  • Modelarea recompenselor și echilibrarea penalităților
  • Concepte de transfer de la simulare la realitate
  • Crearea de medii personalizate în Gymnasium

9. Medii Parțial Observabile și Generalizare

  • Gestionarea informațiilor incomplete de stare (POMDPs)
  • Abordări bazate pe memorie folosind LSTMs și RNNs
  • Îmbunătățirea robusteții și generalizării agentului

10. Teoria Jocurilor și Învățarea prin Reforțare Multi-Agent

  • Introducere în medii multi-agent
  • Cooperare vs. competiție
  • Aplicații în antrenamentul adversar și optimizarea strategiilor

11. Studii de Caz și Aplicații din Lumea Reală

  • Simulări de conducere autonomă
  • Strategii de preț dinamic și tranzacționare financiară
  • Robotică și automatizare industrială

12. Depanare și Optimizare

  • Diagnosticarea antrenamentului instabil
  • Gestionarea sparseții recompenselor și a supraadaptării
  • Scalarea modelelor DRL pe GPU-uri și sisteme distribuite

13. Rezumat și Pași Următori

  • Recapitulare a arhitecturii DRL și a algoritmilor cheie
  • Tendințe din industrie și direcții de cercetare (de exemplu, RLHF, modele hibride)
  • Resurse suplimentare și materiale de lectură

Cerințe

  • Competență în programarea Python
  • Înțelegerea Calculului și Algebrei Liniare
  • Cunoștințe de bază despre Probabilitate și Statistică
  • Experiență în construirea modelelor de învățare automată folosind Python și NumPy sau TensorFlow/PyTorch

Publicul țintă

  • Dezvoltatori interesați de IA și sisteme inteligente
  • Oameni de știință de date care explorează cadre de învățare prin reforțare
  • Ingineri de învățare automată care lucrează cu sisteme autonome
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (5)

Cursuri viitoare

Categorii înrudite