Schița de curs
1. Introducere în Învățarea Profundă prin Reforțare
- Ce este Învățarea prin Reforțare?
- Diferența dintre Învățarea Supervizată, Nesupervizată și Învățarea prin Reforțare
- Aplicații ale DRL în 2025 (robotică, sănătate, finanțe, logistică)
- Înțelegerea buclei de interacțiune agent-mediu
2. Fundamentele Învățării prin Reforțare
- Procese Decizionale Markov (MDP)
- Funcții de Stare, Acțiune, Recompensă, Politică și Valoare
- Compromisul Explorare vs. Exploatare
- Metode Monte Carlo și Învățarea Temporal-Diferențială (TD)
3. Implementarea Algoritmilor de Bază RL
- Metode tabelare: Programare Dinamică, Evaluare Politică și Iterare
- Q-Learning și SARSA
- Explorare epsilon-lacomă și strategii de decădere
- Implementarea mediilor RL cu OpenAI Gymnasium
4. Tranziția la Învățarea Profundă prin Reforțare
- Limitările metodelor tabelare
- Utilizarea rețelelor neuronale pentru aproximarea funcțiilor
- Arhitectura și fluxul de lucru Deep Q-Network (DQN)
- Reluarea experienței și rețelele țintă
5. Algoritmi Avansați DRL
- Double DQN, Dueling DQN și Reluarea Prioritizată a Experienței
- Metode de Gradient Politic: Algoritmul REINFORCE
- Arhitecturi Actor-Critic (A2C, A3C)
- Optimizarea Politicii Proximale (PPO)
- Actor-Critic Soft (SAC)
6. Lucrul cu Spații Continue de Acțiune
- Provocări în controlul continuu
- Utilizarea DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Instrumente și Cadre Practice
- Utilizarea Stable-Baselines3 și Ray RLlib
- Logare și monitorizare cu TensorBoard
- Acordarea hiperparametrilor pentru modelele DRL
8. Ingineria Recompenselor și Proiectarea Mediilor
- Modelarea recompenselor și echilibrarea penalităților
- Concepte de transfer de la simulare la realitate
- Crearea de medii personalizate în Gymnasium
9. Medii Parțial Observabile și Generalizare
- Gestionarea informațiilor incomplete de stare (POMDPs)
- Abordări bazate pe memorie folosind LSTMs și RNNs
- Îmbunătățirea robusteții și generalizării agentului
10. Teoria Jocurilor și Învățarea prin Reforțare Multi-Agent
- Introducere în medii multi-agent
- Cooperare vs. competiție
- Aplicații în antrenamentul adversar și optimizarea strategiilor
11. Studii de Caz și Aplicații din Lumea Reală
- Simulări de conducere autonomă
- Strategii de preț dinamic și tranzacționare financiară
- Robotică și automatizare industrială
12. Depanare și Optimizare
- Diagnosticarea antrenamentului instabil
- Gestionarea sparseții recompenselor și a supraadaptării
- Scalarea modelelor DRL pe GPU-uri și sisteme distribuite
13. Rezumat și Pași Următori
- Recapitulare a arhitecturii DRL și a algoritmilor cheie
- Tendințe din industrie și direcții de cercetare (de exemplu, RLHF, modele hibride)
- Resurse suplimentare și materiale de lectură
Cerințe
- Competență în programarea Python
- Înțelegerea Calculului și Algebrei Liniare
- Cunoștințe de bază despre Probabilitate și Statistică
- Experiență în construirea modelelor de învățare automată folosind Python și NumPy sau TensorFlow/PyTorch
Publicul țintă
- Dezvoltatori interesați de IA și sisteme inteligente
- Oameni de știință de date care explorează cadre de învățare prin reforțare
- Ingineri de învățare automată care lucrează cu sisteme autonome
Mărturii (5)
Hunter este minunat, foarte implicat, extrem de cunoscător și plăcut. Foarte bine făcut.
Rick Johnson - Laramie County Community College
Curs - Artificial Intelligence (AI) Overview
Tradus de catre o masina
Very flexible.
Frank Ueltzhoffer
Curs - Artificial Neural Networks, Machine Learning and Deep Thinking
Tradus de catre o masina
I liked the new insights in deep machine learning.
Josip Arneric
Curs - Neural Network in R
Tradus de catre o masina
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Curs - Introduction to the use of neural networks
Tradus de catre o masina
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
Curs - Artificial Neural Networks, Machine Learning, Deep Thinking
Tradus de catre o masina