Schița de curs

Introducere în Modelele Vizual-Lingvistice

  • Prezentare generală a VLMs și rolul lor în AI multimodal
  • Arhitecturi populare: CLIP, Flamingo, BLIP, etc.
  • Cazuri de utilizare: căutare, generare de descrieri, sisteme autonome, analiză de conținut

Pregătirea Mediului pentru Fine-Tuning

  • Configurarea OpenCLIP și a altor biblioteci VLM
  • Formate de seturi de date pentru perechi imagine-text
  • Pipeline-uri de preprocesare pentru intrări vizuale și lingvistice

Fine-Tuning CLIP și Modele Similare

  • Pierdere contrastivă și spații de încorporare comune
  • Practică: ajustarea CLIP pe seturi de date personalizate
  • Gestionarea datelor specifice domeniului și multilingve

Tehnici Avansate de Fine-Tuning

  • Utilizarea metodelor LoRA și bazate pe adaptoare pentru eficiență
  • Prompt tuning și injecție de prompt-uri vizuale
  • Evaluarea zero-shot vs. fine-tuned

Evaluare și Benchmarking

  • Metrici pentru VLMs: acuratețe în recuperare, BLEU, CIDEr, recall
  • Diagnostice de aliniere vizual-text
  • Vizualizarea spațiilor de încorporare și a clasificărilor greșite

Implementare și Utilizare în Aplicații Reale

  • Exportarea modelelor pentru inferență (TorchScript, ONNX)
  • Integrarea VLMs în pipeline-uri sau API-uri
  • Considerații privind resursele și scalarea modelelor

Studii de Caz și Scenarii Aplicate

  • Analiza media și moderarea conținutului
  • Căutare și recuperare în comerțul electronic și bibliotecile digitale
  • Interacțiune multimodală în robotică și sisteme autonome

Rezumat și Pași Următori

Cerințe

  • Cunoștințe despre învățarea profundă pentru vizualizare și NLP
  • Experiență cu PyTorch și modele bazate pe transformere
  • Familiaritate cu arhitecturile modelelor multimodale

Publicul țintă

  • Ingineri de vizualizare pe calculator
  • Dezvoltatori de AI
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite