Schița de curs

Introducere în Modele Multimodale Mistral

  • Prezentare generală a Mistral Medium și capacitatea multimodală
  • Modele OCR/documente și cazuri de utilizare
  • Integrarea cu ecosistemele open-source

Pipeleini OCR și Vizual

  • Fundamentele OCR cu modele Mistral
  • Preprocesarea imaginilor și documentelor scaneate
  • Extragerea textului structurat din imagini

Înțelegerea Documentelor

  • Proiectarea pipeleinelor NLP pentru documente
  • Recunoașterea entităților, rezumatul și clasificarea documentelor
  • Lecționarea cross-modală a datelor text și vizual

Sisteme de Căutare și Aplicații de Cunoștințe

  • Sisteme de căutare vizual-text
  • Construirea căutării semantice cu rezultatele OCR
  • Depozite documentale enterprise

Aplicații Asistențiale și Interacționale

  • Proiectarea UI-ului pentru asistente multimodale
  • Aplicații de accesibilitate (de exemplu, vizual la text)
  • Unelte de productivitate din lumea reală

Performanță și Optimizare

  • Scalarea pipeleinelor multimodale
  • Ajustarea performanței inferinței
  • Evaluarea compromisurilor dintre acuratețe și eficiență

Cazuri de Studiu și Direcții Viitoare

  • Aplicații industriale ale AI multimodală
  • Tendințe de cercetare în OCR și AI documentală
  • Considerații responsabile privind AI în sarcinile vizual-textuale

Sumeazări și Următoarele Pași

Cerințe

  • O înțelegere a conceptelor de procesare a limbajului natural
  • Experiență cu Python și framework-uri ML
  • Familiaritate cu noțiunile de bază ale vizualizării computerizate

Audientă

  • Echipele de produs
  • Cercetătorii în ML
  • Inginerii aplicativi ML
 14 ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite