Schița de curs

1. Introducere în Deep Reinforcement Learning

  • Ce este Reinforcement Learning?
  • Diferența dintre Supervizat, Nesubsupervizat și Reinforcement Learning
  • Aplicații ale DRL în 2025 (robotică, sănătate, finanțe, logistică)
  • Înțelegerea ciclului de interacțiune agent-mediu

2. Fundamentele Reinforcement Learning

  • Procesele Decisionale Markov (MDP)
  • Stare, Acțiune, Recompensă, Politică și Funcții de Valoare
  • Dinamica explorării vs. exploatare
  • Metode Monte Carlo și învățarea diferențială temporară (TD)

3. Implementarea Algoritmilor de Bază RL

  • Metode tabulare: Programarea Dinamică, Evaluarea Politicii și Iterația Politicii
  • Q-Learning și SARSA
  • Eșantionare epsilon-greedy și strategii de decădere
  • Implementarea mediilor RL cu OpenAI Gymnasium

4. Trecerea la Deep Reinforcement Learning

  • Limitările metodelor tabulare
  • Folosirea rețelelor neuronale pentru aproximarea funcțiilor
  • Arhitectura și fluxul de lucru al Deep Q-Network (DQN)
  • Repetarea experienței și rețelele țintă

5. Algoritmi Avansati DRL

  • Double DQN, Dueling DQN, și Repetarea Experienței Prioritizate
  • Metode de Gradiente de Politici: algoritmul REINFORCE
  • Arhitecturi Actor-Critic (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Lucrul cu Spațiile de Acțiuni Continue

  • Săruturile în controlul continuu
  • Folosirea DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Unelte și Framework-uri Pracțice

  • Folosirea Stable-Baselines3 și Ray RLlib
  • Jurnalizarea și monitorizarea cu TensorBoard
  • Tuning-ul hiperparametrilor pentru modele DRL

8. Ingineria Recompensei și Designul Mediului

  • Modelarea recompenselor și echilibrarea penalităților
  • Concepte de transfer de simulație la realitate (sim-to-real)
  • Crearea mediilor personalizate în Gymnasium

9. Mediile Parțial Observabile și Generalizarea

  • Gestionarea informațiilor de stare incomplete (POMDPs)
  • Abordări bazate pe memorie folosind LSTMs și RNNs
  • Mărire robusteții și generalizării agentului

10. Teoria Jocurilor și Învățarea Reinforcement Multi-Agent

  • Introducere în mediile multi-agent
  • Cooperare vs. competiție
  • Aplicații în instruire adversară și optimizarea strategiilor

11. Studii de caz și Aplicații Reale

  • Simoalriile de conducere autonomă
  • Pretizarea dinamică și strategii de tranzacționare financiară
  • Robotica și automatizarea industrială

12. Depanarea și Optimizarea

  • Diagnostica înstabilizării instruirii
  • Gestionarea sparsității recompenselor și overfitting-ului
  • Scalarea modelelor DRL pe GPUs și sisteme distribuite

13. Rezumat și Următoarele Pași

  • Recapitularea arhitecturii DRL și algoritmilor cheie
  • Tendințele industriale și direcțiile de cercetare (de exemplu, RLHF, modele hibride)
  • Surse suplimentare și materiale pentru lectură

Cerințe

  • Puțină experiență în programare cu Python
  • Înțelegere a Calculului și Algebrei Liniare
  • Cunoștințe de bază ale Probabilității și Statisticii
  • Experiență în construirea de modele de machine learning folosind Python și NumPy sau TensorFlow/PyTorch

Audiență

  • Dezvoltatori interesați de AI și sisteme inteligente
  • Data Scientists care explorează cadrele de învățare cu renforțament
  • Ingineri de Machine Learning care lucrează cu sisteme autonome
 21 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Cursuri viitoare

Categorii înrudite