Intrati in legatura

Schița de curs

Suveranitatea AI și Implementarea Locală a LLM

  • Riscurile LLM-urilor din cloud: păstrarea datelor, antrenarea pe intrări, jurisdicție străină.
  • Arhitectura Ollama: server de modele, registru și API compatibil cu OpenAI.
  • Comparație cu vLLM, llama.cpp și Text Generation Inference.
  • Licențierea modelelor: termenii Llama, Mistral, Qwen și Gemma.

Instalare și Configurare Hardware

  • Instalarea Ollama pe Linux cu suport CUDA și ROCm.
  • Fallback CPU-only și optimizare AVX/AVX2.
  • Implementare Docker și mapare a volumelor persistente.
  • Configurare multi-GPU și strategii de alocare VRAM.

Gestionarea Modelelor

  • Descărcarea modelelor din registrul Ollama: ollama pull llama3.
  • Importul modelelor GGUF din HuggingFace și TheBloke.
  • Niveluri de cuantizare: compromisurile Q4_K_M, Q5_K_M, Q8_0.
  • Schimbarea modelelor și limitele de încărcare concurentă a modelelor.

Fișiere Modelfile Personalizate

  • Scrierea sintaxei Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Ajustarea parametrilor: temperature, top_p și repeat_penalty.
  • Ingineria prompturilor de sistem pentru comportamente specifice rolurilor.
  • Crearea și publicarea modelelor personalizate în registrul local.

Integrarea API

  • Punctul de capăt /v1/chat/completions compatibil cu OpenAI.
  • Răspunsuri în flux și modul JSON.
  • Integrarea cu LangChain, LlamaIndex și aplicații personalizate.
  • Autentificare și limitarea ratei cu proxy invers.

Optimizarea Performanței

  • Dimensionarea ferestrei de context și gestionarea cache-ului KV.
  • Inferență în lot și gestionarea cererilor paralele.
  • Alocarea firelor CPU și conștientizarea NUMA.
  • Monitorizarea utilizării GPU și a presiunii memoriei.

Securitate și Conformitate

  • Izolarea rețelei pentru punctele de capăt de servire a modelelor.
  • Filtrarea intrărilor și pipeline-uri de moderare a ieșirilor.
  • Auditarea jurnalelor de prompturi și completări.
  • Proveniența modelelor și verificarea hash-urilor.

Cerințe

  • Administrare intermediară a Linux și a containerelor.
  • Înțelegere de nivel înalt a învățării automate și a modelelor de tip transformer.
  • Familiaritate cu API-uri REST și JSON.

Publicul Țintă

  • Ingineri și developeri de AI care înlocuiesc API-uri LLM din cloud.
  • Organizații cu sensibilitate a datelor care împiedică utilizarea modelelor din cloud.
  • Echipe guvernamentale și de apărare care necesită modele lingvistice air-gapped.
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite