Schița de curs

Introducere în AI Multimodală

  • Prezentare generală a AI multimodale și aplicații din lumea reală
  • Provocări în integrarea datelor de text, imagini și audio
  • Cercetări de ultimă oră și avansări

Procesarea Datelor și Ingineria de Caracteristici

  • Manipularea seturilor de date de text, imagini și audio
  • Tehnici de preprocesare pentru învățarea multimodală
  • Extragerea de caracteristici și strategii de fuziune a datelor

Construirea Modelelor Multimodale cu PyTorch și Hugging Face

  • Introducere în PyTorch pentru învățarea multimodală
  • Utilizarea Hugging Face Transformers pentru sarcini NLP și de vizualizare
  • Combinarea diferitelor modalități într-un model AI unificat

Implementarea Fuziunii Voci, Vizual și Text

  • Integrarea OpenAI Whisper pentru recunoașterea vocală
  • Aplicarea DeepSeek-Vision pentru procesarea imaginilor
  • Tehnici de fuziune pentru învățarea cross-modală

Antrenarea și Optimizarea Modelelor AI Multimodale

  • Strategii de antrenare a modelelor pentru AI multimodală
  • Tehnici de optimizare și ajustare a hiperparametrilor
  • Abordarea părtinirii și îmbunătățirea generalizării modelelor

Implementarea AI Multimodale în Aplicații din Lumea Reală

  • Exportul modelelor pentru utilizare în producție
  • Implementarea modelelor AI pe platforme cloud
  • Monitorizarea performanței și întreținerea modelelor

Subiecte Avansate și Tendințe Viitoare

  • Învățarea zero-shot și few-shot în AI multimodală
  • Considerații etice și dezvoltarea responsabilă a AI
  • Tendințe emergente în cercetarea AI multimodală

Rezumat și Pași Următori

Cerințe

  • Înțelegere solidă a conceptelor de învățare automată și învățare profundă
  • Experiență cu cadre AI precum PyTorch sau TensorFlow
  • Familiaritate cu procesarea datelor de text, imagini și audio

Publicul țintă

  • Dezvoltatori AI
  • Ingineri de învățare automată
  • Cercetători
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite