Schița de curs

Prezentare generală a tehnologiilor de recunoaștere a vorbirii

  • Istoria și evoluția recunoașterii vorbirii
  • Modele acustice, modele lingvistice și decodificare
  • Arhitecturi moderne: RNNs, transformers, și Whisper

Prelucrarea audio și noțiuni de bază ale tranzcrierii

  • Gestionarea formatelor audio și ratele de esantionare
  • Curățenie, taierile, și segmentarea audio
  • Generarea textului din audio: în timp real vs batch

Practică cu Whisper și alte API-uri

  • Instalarea și utilizarea OpenAI Whisper
  • Apelarea API-urilor cloud (Google, Azure) pentru tranzcriere
  • Compararea performanței, latentei și costului

Limbi, accenturi și adaptare la domeniu

  • Lucrul cu mai multe limbi și accenturi
  • Vocabular personalizat și toleranță față de zgomot
  • Gestionarea limbajului legal, medical sau tehnic

Formatarea ieșirii și integrarea

  • Adăugarea marcajelor de timp, punctuației și etichetelor vorbitorului
  • Exportul în formate text, SRT sau JSON
  • Integrarea tranzcrierilor în aplicații sau baze de date

Laboratoare de implementare a cazurilor practice

  • Tranzcrierea întâlnirilor, interviurilor sau podcas-urilor
  • Sisteme de comandă vocale-text
  • Captioane în timp real pentru fluxuri video/audio

Evaluare, limitări și etică

  • Metricile de acuratețe și benchmarking-ul modelelor
  • Prejudecarea și echitatea în modelele de vorbire
  • Considerente privind confidențialitatea și conformitatea

Rezumat și următoarele pași

Cerințe

  • O înțelegere generală a conceptelor de IA și învățare automată
  • Cunoștințe despre formatele audio sau media și instrumentele asociate

Audiență

  • Cercetători de date și ingineri AI care lucrează cu date audio
  • Dezvoltatori de software care construiesc aplicații bazate pe tranzcriere
  • Organizații care explorează recunoașterea vorbirii pentru automatizare
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite