Intrati in legatura

Schița de curs

Elemente fundamentale ale producției Tencent Hunyuan

  • Prezentare generală a scenariilor de servire a modelelor Tencent Hunyuan
  • Caracteristicile de producție ale modelelor mari și MoE
  • Gâtuieli comune de latență, debit și costuri
  • Definirea obiectivelor de nivel de serviciu pentru sarcinile de inferență

Arhitectura de implementare și fluxul de servire

  • Componentele de bază ale unui stack de inferență de producție
  • Alegerea între modele de implementare containerizate, on-premise și cloud
  • Bazele încărcării modelelor, rutării cererilor și alocării GPU
  • Proiectarea pentru fiabilitate și simplitate operațională

Optimizarea latenței în practică

  • Utilizarea motoarelor de inferență optimizate, cum ar fi TensorRT, acolo unde este aplicabil
  • Concepte KV-cache și reglarea practică a cache-ului
  • Reducerea overhead-ului de pornire, încălzire și răspuns
  • Măsurarea timpului până la primul token și a vitezei de generare a token-urilor

Debit, batching și eficiența GPU

  • Strategii de batching continuu și de batching a cererilor
  • Gestionarea concurenței și a comportamentului cozii
  • Îmbunătățirea utilizării GPU-urilor fără a afecta experiența utilizatorului
  • Gestionarea cererilor cu context lung și sarcini mixte

Cuantizare și controlul costurilor

  • De ce este importantă cuantizarea pentru servirea în producție
  • Compromisuri practice ale opțiunilor de precizie FP16, INT8 și altele
  • Echilibrarea calității modelului, latenței și costului infrastructurii
  • Crearea unei liste de verificare simple pentru optimizarea costurilor

Operațiuni, monitorizare și revizuire a pregătirii

  • Triggeri de scalare automată pentru serviciile de inferență
  • Monitorizarea latenței, debitului, utilizării cache-ului și sănătății GPU-urilor
  • Bazele înregistrării, alertării și răspunsului la incidente
  • Revizuirea unei implementări de referință și crearea unui plan de îmbunătățire

Cerințe

  • Înțelegere de bază a implementării modelelor de limbaj de mare dimensiune și a fluxurilor de lucru de inferență
  • Experiență cu containere, infrastructură cloud sau on-premise și servicii bazate pe API
  • Cunoaștere de lucru a Python sau a sarcinilor de inginerie de sistem

Public țintă

  • Ingineri de ML care implementează LLM-uri în producție
  • Ingineri de platformă responsabili de serviciile de inferență bazate pe GPU
  • Arhitecți de soluții care proiectează platforme scalabile de servire a IA
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite