Schița de curs

Introducere la Multimodalitatea Gemini 3

  • Capacități în domeniul textului, imaginilor, audio și video
  • Selecția modelului și prezentarea endpoint-urilor
  • Concepte cheie în raționament multimodal

Lucrul cu Text și Intrări Structurate

  • Strategii de prompting pentru generarea textului
  • Metadate, ferestre de context și embedings
  • Orchestrarea task-urilor multimodale bazată pe text

Înțelegerea Imaginii și Fluxurile Vizuale

  • Analiza și interpretarea imaginilor cu Gemini 3
  • Crearea unor instrumente de căutare și tagging vizual
  • Construirea interacțiunilor image-to-text și text-to-image

Prelucrarea Intrărilor Audio

  • Workflow-uri de recunoaștere a vorbirii și transcriere
  • Detectarea și interpretarea evenimentelor audio
  • Integrarea audio cu intrările text și vizuale

Inteligența Video și Analiza Scenei

  • Raționament pe frame-uri și video continuu
  • Construirea unor instrumente de rezumat și extragere a punctelor principale
  • Automatizarea bazată pe video și fluxurile de conținut

Conceperea Arhitecturilor Aplicațiilor Multimodale

  • Combinarea mai multor tipuri de intrări într-un singur pipeline
  • Considerente privind latenta, costul și calculul
  • Cele mai bune practici pentru sisteme multimodale scalabile

Prototipizarea Aplicațiilor Multimodale

  • Crearea hands-on a prototipurilor multimodale
  • Iterație rapidă cu ingineria prompt-urilor
  • Testarea și refinarea fluxurilor de experiență utilizator

Implementarea Soluțiilor Multimodale

  • Strategii de implementare și configurarea mediului
  • Monitorizarea performanței în lumea reală
  • Considerente privind securitatea și conformitatea

Rezumat și Următoarele Pași

Cerințe

  • O înțelegere a conceptelor moderne de IA
  • Experiență cu Python sau JavaScript
  • Familiaritate cu REST APIs

Audiență

  • Designeri
  • Creați de conținut
  • Echipe tehnice de produs
 14 ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite