Schița de curs

Introducere în Învățarea prin Întărire din Feedback Uman (RLHF)

  • Ce este RLHF și de ce este importantă
  • Comparație cu metodele de ajustare supervizată
  • Aplicații ale RLHF în sistemele moderne de IA

Modelarea Recompenselor cu Feedback Uman

  • Colectarea și structurarea feedback-ului uman
  • Construirea și antrenarea modelelor de recompensă
  • Evaluarea eficacității modelelor de recompensă

Antrenarea cu Optimizarea Proximală a Politicilor (PPO)

  • Prezentare generală a algoritmilor PPO pentru RLHF
  • Implementarea PPO cu modele de recompensă
  • Ajustarea iterativă și sigură a modelelor

Ajustarea Practică a Modelelor de Limbaj

  • Pregătirea seturilor de date pentru fluxurile de lucru RLHF
  • Ajustarea practică a unui mic model de limbaj folosind RLHF
  • Provocări și strategii de atenuare

Scalarea RLHF la Sisteme de Producție

  • Considerații privind infrastructura și calculul
  • Asigurarea calității și bucle de feedback continuu
  • Cele mai bune practici pentru implementare și întreținere

Considerații Etici și Atenuarea Bias-ului

  • Abordarea riscurilor etice în feedback-ul uman
  • Strategii de detectare și corectare a bias-ului
  • Asigurarea alinierii și a rezultatelor sigure

Studii de Caz și Exemple din Lumea Reală

  • Studiu de caz: Ajustarea ChatGPT cu RLHF
  • Alte implementări de succes ale RLHF
  • Lecții învățate și perspective din industrie

Rezumat și Pași Următori

Cerințe

  • O înțelegere a fundamentelor învățării supervizate și a învățării prin întărire
  • Experiență în ajustarea modelelor și arhitecturi de rețele neuronale
  • Familiaritate cu programarea în Python și cadre de lucru pentru învățare profundă (de ex., TensorFlow, PyTorch)

Publicul țintă

  • Ingineri de învățare automată
  • Cercetători în domeniul IA
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite