Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Suveranitatea AI și Implementarea Locală a LLM
- Riscurile LLM-urilor din cloud: păstrarea datelor, antrenarea pe intrări, jurisdicție străină.
- Arhitectura Ollama: server de modele, registru și API compatibil cu OpenAI.
- Comparație cu vLLM, llama.cpp și Text Generation Inference.
- Licențierea modelelor: termenii Llama, Mistral, Qwen și Gemma.
Instalare și Configurare Hardware
- Instalarea Ollama pe Linux cu suport CUDA și ROCm.
- Fallback CPU-only și optimizare AVX/AVX2.
- Implementare Docker și mapare a volumelor persistente.
- Configurare multi-GPU și strategii de alocare VRAM.
Gestionarea Modelelor
- Descărcarea modelelor din registrul Ollama: ollama pull llama3.
- Importul modelelor GGUF din HuggingFace și TheBloke.
- Niveluri de cuantizare: compromisurile Q4_K_M, Q5_K_M, Q8_0.
- Schimbarea modelelor și limitele de încărcare concurentă a modelelor.
Fișiere Modelfile Personalizate
- Scrierea sintaxei Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Ajustarea parametrilor: temperature, top_p și repeat_penalty.
- Ingineria prompturilor de sistem pentru comportamente specifice rolurilor.
- Crearea și publicarea modelelor personalizate în registrul local.
Integrarea API
- Punctul de capăt /v1/chat/completions compatibil cu OpenAI.
- Răspunsuri în flux și modul JSON.
- Integrarea cu LangChain, LlamaIndex și aplicații personalizate.
- Autentificare și limitarea ratei cu proxy invers.
Optimizarea Performanței
- Dimensionarea ferestrei de context și gestionarea cache-ului KV.
- Inferență în lot și gestionarea cererilor paralele.
- Alocarea firelor CPU și conștientizarea NUMA.
- Monitorizarea utilizării GPU și a presiunii memoriei.
Securitate și Conformitate
- Izolarea rețelei pentru punctele de capăt de servire a modelelor.
- Filtrarea intrărilor și pipeline-uri de moderare a ieșirilor.
- Auditarea jurnalelor de prompturi și completări.
- Proveniența modelelor și verificarea hash-urilor.
Cerințe
- Administrare intermediară a Linux și a containerelor.
- Înțelegere de nivel înalt a învățării automate și a modelelor de tip transformer.
- Familiaritate cu API-uri REST și JSON.
Publicul Țintă
- Ingineri și developeri de AI care înlocuiesc API-uri LLM din cloud.
- Organizații cu sensibilitate a datelor care împiedică utilizarea modelelor din cloud.
- Echipe guvernamentale și de apărare care necesită modele lingvistice air-gapped.
14 Ore