Schița de curs

Introducere în Modele Vision-Language

  • Panoramă a MLM-uri și rolul lor în AI multimodal
  • Arhitecturi populare: CLIP, Flamingo, BLIP, etc.
  • Cazuri de utilizare: căutare, legendare automată, sisteme autonome, analiza conținutului

Pregătirea Mediei pentru Fine-Tuning

  • Setarea OpenCLIP și a altor biblioteci VLM
  • Formate de seturi de date pentru perechi imagine-text
  • Pipeline-uri de preprocesare pentru intrările vizionale și lingvistice

Fine-Tuning CLIP și Modele Asemănătoare

  • Pierdere contrastivă și spații de embedding conjuncte
  • Practic: fine-tuning CLIP pe seturi de date personalizate
  • Gestionarea datelor specifice domeniului și multilingve

Tehnici Avansate de Fine-Tuning

  • Folosirea LoRA și metodelor bazate pe adaptori pentru eficiență
  • Adaptarea prompt-urilor și injecția visuală a prompt-urilor
  • Schimbările de compromis în evaluarea zero-shot vs. fine-tuned

Evaluare și Benchmarking

  • Metrii pentru MLM-uri: acuratețea recuperării, BLEU, CIDEr, recall
  • Diagnostics al alinierii vizual-textuală
  • Visualizarea spațiilor de embedding și a erorilor de clasificare

Implementare și Utilizare în Aplicații Reale

  • Exportarea modelelor pentru inferență (TorchScript, ONNX)
  • Integrarea MLM-urilor în pipeline-uri sau API-uri
  • Considerente de resurse și scalarea modelului

Cazuri de Studiu și Scenarii Aplicate

  • Analiza media și moderarea conținutului
  • Căutare și recuperare în comerț electronic și biblioteci digitale
  • Interacțiune multimodală în robotică și sisteme autonome

Synopsis și Pași Următori

Cerințe

  • O înțelegere a învățării adâncite pentru viziune și NLP (Procesarea Limbajului Natural)
  • Experiență cu PyTorch și modele bazate pe transformer
  • Familiaritate cu arhitecturile de modele multimodale

Audiență

  • Ingineri în computer vision (viziune computațională)
  • Dezvoltatori AI
 14 ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite