Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Prezentare generală a tehnologiilor de recunoaștere a vorbirii
- Istoria și evoluția recunoașterii vorbirii
- Modele acustice, modele lingvistice și decodificare
- Arhitecturi moderne: RNNs, transformers, și Whisper
Prelucrarea audio și noțiuni de bază ale tranzcrierii
- Gestionarea formatelor audio și ratele de esantionare
- Curățenie, taierile, și segmentarea audio
- Generarea textului din audio: în timp real vs batch
Practică cu Whisper și alte API-uri
- Instalarea și utilizarea OpenAI Whisper
- Apelarea API-urilor cloud (Google, Azure) pentru tranzcriere
- Compararea performanței, latentei și costului
Limbi, accenturi și adaptare la domeniu
- Lucrul cu mai multe limbi și accenturi
- Vocabular personalizat și toleranță față de zgomot
- Gestionarea limbajului legal, medical sau tehnic
Formatarea ieșirii și integrarea
- Adăugarea marcajelor de timp, punctuației și etichetelor vorbitorului
- Exportul în formate text, SRT sau JSON
- Integrarea tranzcrierilor în aplicații sau baze de date
Laboratoare de implementare a cazurilor practice
- Tranzcrierea întâlnirilor, interviurilor sau podcas-urilor
- Sisteme de comandă vocale-text
- Captioane în timp real pentru fluxuri video/audio
Evaluare, limitări și etică
- Metricile de acuratețe și benchmarking-ul modelelor
- Prejudecarea și echitatea în modelele de vorbire
- Considerente privind confidențialitatea și conformitatea
Rezumat și următoarele pași
Cerințe
- O înțelegere generală a conceptelor de IA și învățare automată
- Cunoștințe despre formatele audio sau media și instrumentele asociate
Audiență
- Cercetători de date și ingineri AI care lucrează cu date audio
- Dezvoltatori de software care construiesc aplicații bazate pe tranzcriere
- Organizații care explorează recunoașterea vorbirii pentru automatizare
14 Ore