Schița de curs

Introducere în Invățarea prin Reîncarcare și IA Agentică

  • Luarea deciziilor sub incertitudine și planificarea secvențială
  • Componentele cheie ale RL: agenți, medii, stări și recompense
  • Rolul RL în sistemele de IA adaptivă și agentică

Procese de Decizie Markov (MDPs)

  • Definiția formală și proprietățile MDPs-urilor
  • Funcții de valoare, ecuațiile Bellman și programarea dinamică
  • Evaluarea politicilor, îmbunătățirea și iterația lor

Invățarea prin Reîncarcare Fără Model

  • Învățarea Monte Carlo și Temporal-Difference (TD)
  • Q-learning și SARSA
  • Practic: implementarea metodelor tabulare de RL în Python

Invățarea prin Reîncarcare Adâncă

  • Combinarea rețelelor neuronale cu RL pentru aproximarea funcțiilor
  • Deep Q-Networks (DQN) și experiența de reîncarcare
  • Arhitecturi Actor-Critic și gradienți de politică
  • Practic: antrenarea unui agent folosind DQN și PPO cu Stable-Baselines3

Strategii de Explorare și Formare a Recompenselor

  • Echilibrarea explorării vs. exploatarei (ε-greedy, UCB, metode de entropie)
  • Proiectarea funcțiilor de recompensă și evitarea comportamentelor neintenționate
  • Formarea recompenselor și învățarea programată

Subiecte Avansate de RL și Luare a Deciziilor

  • Invățarea prin reîncarcare multi-agent și strategii de cooperare
  • Învățarea prin reîncarcare ierarhică și cadru de opțiuni
  • RL offline și învățarea prin imitare pentru implementarea mai sigură

Medii de Simulare și Evaluare

  • Utilizarea OpenAI Gym și a mediilor personalizate
  • Spații de acțiune continuu vs. discrete
  • Metrici pentru performanța agenților, stabilitatea și eficiența eșantionului

Integrarea RL în Sistemele de IA Agentică

  • Combinarea raționamentului și RL în arhitecturi hibride ale agenților
  • Integrarea învățării prin reîncarcare cu agenți care folosesc instrumente
  • Considerente operaționale pentru scalare și implementare

Proiect Capstone

  • Să proiectați și să implementați un agent de învățare prin reîncarcare pentru o sarcină simulată
  • Analiza performanței antrenamentului și optimizarea hiperparametrilor
  • Demonstrați comportamentul adaptiv și luarea deciziilor într-un context agentic

Rezumat și Următoarele Pași

Cerințe

  • Competențe avansate în programare Python
  • Înțelegere solidă a conceptelor de învățare automată și învățare adâncă
  • Familiaritate cu algebră liniară, probabilitate și metode de optimizare de bază

Audiență

  • Ingineri de învățare prin reîncarcare și cercetători de IA aplicată
  • Dezvoltatori de robotica și automatizare
  • Echipe de inginerie care lucrează la sisteme de IA adaptivă și agentică
 28 ore

Numărul de participanți


Pret per participant

Mărturii (3)

Cursuri viitoare

Categorii înrudite