Schița de curs

Introducere în Învățarea prin Întărire și IA Agentică

  • Luarea deciziilor în condiții de incertitudine și planificare secvențială
  • Componente cheie ale RL: agenți, medii, stări și recompense
  • Rolul RL în sistemele de IA adaptivă și agentică

Procese de Decizie Markov (MDPs)

  • Definiția formală și proprietățile MDPs
  • Funcții de valoare, ecuații Bellman și programare dinamică
  • Evaluarea, îmbunătățirea și iterația politicilor

Învățarea prin Întărire fără Model

  • Învățarea Monte Carlo și Diferențe Temporale (TD)
  • Q-learning și SARSA
  • Practică: implementarea metodelor tabelare de RL în Python

Învățarea Profundă prin Întărire

  • Combinarea rețelelor neuronale cu RL pentru aproximarea funcțiilor
  • Rețele Deep Q-Networks (DQN) și reluarea experienței
  • Arhitecturi Actor-Critic și gradientul politicilor
  • Practică: antrenarea unui agent folosind DQN și PPO cu Stable-Baselines3

Strategii de Explorare și Modelarea Recompenselor

  • Echilibrarea explorării vs. exploatării (ε-greedy, UCB, metode de entropie)
  • Proiectarea funcțiilor de recompensă și evitarea comportamentelor nedorite
  • Modelarea recompenselor și învățarea pe curriculum

Subiecte Avansate în RL și Luarea Deciziilor

  • Învățarea prin întărire multi-agent și strategii cooperative
  • Învățarea prin întărire ierarhică și cadrul opțiunilor
  • RL offline și învățarea prin imitație pentru implementări mai sigure

Medii de Simulare și Evaluare

  • Utilizarea OpenAI Gym și a mediilor personalizate
  • Spații de acțiune continue vs. discrete
  • Metrici pentru performanța, stabilitatea și eficiența eșantionării agenților

Integrarea RL în Sisteme de IA Agentică

  • Combinarea raționamentului și RL în arhitecturi hibride de agenți
  • Integrarea învățării prin întărire cu agenți care folosesc unelte
  • Considerații operaționale pentru scalare și implementare

Proiect Capstone

  • Proiectarea și implementarea unui agent de învățare prin întărire pentru o sarcină simulată
  • Analiza performanței de antrenament și optimizarea hiperparametrilor
  • Demonstrarea comportamentului adaptiv și a luării deciziilor într-un context agentic

Rezumat și Pași Următori

Cerințe

  • Cunoaștere avansată a programării în Python
  • Înțelegere solidă a conceptelor de învățare automată și învățare profundă
  • Familiaritate cu algebra liniară, probabilități și metode de bază de optimizare

Publicul țintă

  • Ingineri de învățare prin întărire și cercetători AI aplicați
  • Dezvoltatori de robotică și automatizare
  • Echipe de inginerie care lucrează la sisteme de IA adaptivă și agentică
 28 Ore

Numărul de participanți


Pret per participant

Mărturii (3)

Cursuri viitoare

Categorii înrudite