Schița de curs

Introducere în AI Multi-Modal

  • Ce este AI multi-modal?
  • Provocări cheie și aplicații
  • Prezentare generală a modelelor multi-modale de top

Procesarea Textului și Înțelegerea Limbajului Natural

  • Utilizarea modelelor de limbaj larg (LLM) pentru agenți AI bazati pe text
  • Înțelegerea ingineriei prompturilor pentru sarcini multi-modale
  • Adaptarea modelelor de text pentru aplicații specifice domeniului

Recunoașterea și Generarea Imaginilor

  • Procesarea imaginilor cu AI: clasificare, descriere și detectare de obiecte
  • Generarea imaginilor cu modele de difuzie (Stable Diffusion, DALLE)
  • Integrarea datelor de imagine cu modele bazate pe text

Procesarea Vorbirii și a Sunetului

  • Recunoașterea vorbirii cu Whisper ASR
  • Tehnici de sinteză text-în-vorbire (TTS)
  • Îmbunătățirea interacțiunii utilizatorului cu AI bazat pe voce

Integrarea Intrărilor Multi-Modale

  • Construirea de fluxuri de lucru AI pentru procesarea mai multor tipuri de intrări
  • Tehnici de fuziune pentru combinarea datelor de text, imagini și vorbire
  • Aplicații din lumea reală ale agenților AI multi-modali

Implementarea Agenților AI Multi-Modali

  • Construirea de soluții AI multi-modale bazate pe API
  • Optimizarea modelelor pentru performanță și scalabilitate
  • Cele mai bune practici pentru implementarea AI multi-modal în producție

Considerații Etici și Tendențe Viitoare

  • Părtinirea și echitatea în AI multi-modal
  • Preocupări legate de confidențialitatea datelor multi-modale
  • Dezvoltări viitoare în AI multi-modal

Rezumat și Pași Următori

Cerințe

  • Înțelegerea fundamentelor învățării automate
  • Experiență în programarea Python
  • Familiaritate cu framework-uri de deep learning (de exemplu, TensorFlow, PyTorch)

Publicul țintă

  • Dezvoltatori AI
  • Cercetători
  • Ingineri multimedia
 21 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite