Schița de curs
1. Introducere în Învățarea Profundă prin Reforțare
- Ce este Învățarea prin Reforțare?
- Diferența dintre Învățarea Supervizată, Nesupervizată și Învățarea prin Reforțare
- Aplicații ale DRL în 2025 (robotică, sănătate, finanțe, logistică)
- Înțelegerea buclei de interacțiune agent-mediu
2. Fundamentele Învățării prin Reforțare
- Procese Decizionale Markov (MDP)
- Funcții de Stare, Acțiune, Recompensă, Politică și Valoare
- Compromisul Explorare vs. Exploatare
- Metode Monte Carlo și Învățarea Temporal-Diferențială (TD)
3. Implementarea Algoritmilor de Bază RL
- Metode tabelare: Programare Dinamică, Evaluare Politică și Iterare
- Q-Learning și SARSA
- Explorare epsilon-lacomă și strategii de decădere
- Implementarea mediilor RL cu OpenAI Gymnasium
4. Tranziția la Învățarea Profundă prin Reforțare
- Limitările metodelor tabelare
- Utilizarea rețelelor neuronale pentru aproximarea funcțiilor
- Arhitectura și fluxul de lucru Deep Q-Network (DQN)
- Reluarea experienței și rețelele țintă
5. Algoritmi Avansați DRL
- Double DQN, Dueling DQN și Reluarea Prioritizată a Experienței
- Metode de Gradient Politic: Algoritmul REINFORCE
- Arhitecturi Actor-Critic (A2C, A3C)
- Optimizarea Politicii Proximale (PPO)
- Actor-Critic Soft (SAC)
6. Lucrul cu Spații Continue de Acțiune
- Provocări în controlul continuu
- Utilizarea DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Instrumente și Cadre Practice
- Utilizarea Stable-Baselines3 și Ray RLlib
- Logare și monitorizare cu TensorBoard
- Acordarea hiperparametrilor pentru modelele DRL
8. Ingineria Recompenselor și Proiectarea Mediilor
- Modelarea recompenselor și echilibrarea penalităților
- Concepte de transfer de la simulare la realitate
- Crearea de medii personalizate în Gymnasium
9. Medii Parțial Observabile și Generalizare
- Gestionarea informațiilor incomplete de stare (POMDPs)
- Abordări bazate pe memorie folosind LSTMs și RNNs
- Îmbunătățirea robusteții și generalizării agentului
10. Teoria Jocurilor și Învățarea prin Reforțare Multi-Agent
- Introducere în medii multi-agent
- Cooperare vs. competiție
- Aplicații în antrenamentul adversar și optimizarea strategiilor
11. Studii de Caz și Aplicații din Lumea Reală
- Simulări de conducere autonomă
- Strategii de preț dinamic și tranzacționare financiară
- Robotică și automatizare industrială
12. Depanare și Optimizare
- Diagnosticarea antrenamentului instabil
- Gestionarea sparseții recompenselor și a supraadaptării
- Scalarea modelelor DRL pe GPU-uri și sisteme distribuite
13. Rezumat și Pași Următori
- Recapitulare a arhitecturii DRL și a algoritmilor cheie
- Tendințe din industrie și direcții de cercetare (de exemplu, RLHF, modele hibride)
- Resurse suplimentare și materiale de lectură
Cerințe
- Competență în programarea Python
- Înțelegerea Calculului și Algebrei Liniare
- Cunoștințe de bază despre Probabilitate și Statistică
- Experiență în construirea modelelor de învățare automată folosind Python și NumPy sau TensorFlow/PyTorch
Publicul țintă
- Dezvoltatori interesați de IA și sisteme inteligente
- Oameni de știință de date care explorează cadre de învățare prin reforțare
- Ingineri de învățare automată care lucrează cu sisteme autonome
Mărturii (3)
Mi-a plăcut foarte mult finalul unde am avut ocazia să jucăm cu CHAT GPT. Sala nu era configuraționată cel mai bine pentru aceasta - ar fi fost mai util să avem câteva mese mici în loc de o masă mare, astfel încât să putem forma grupuri mai mici și să ne brainstorm-urim idei.
Nola - Laramie County Community College
Curs - Artificial Intelligence (AI) Overview
Tradus de catre o masina
Lucrând pe baza principiilor de bază într-un mod concentrat, și trecerea la aplicarea studiilor de caz în aceeași zi
Maggie Webb - Department of Jobs, Regions, and Precincts
Curs - Artificial Neural Networks, Machine Learning, Deep Thinking
Tradus de catre o masina
Faptul că s-a folosit date reale ale unei companii. Formatorul a avut o abordare foarte bună, încurajând participanții să colaboreze și să concureze
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Curs - Applied AI from Scratch in Python
Tradus de catre o masina