Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Infrastructura EXO ca Cod
- Prezentare generală a modelelor de implementare EXO: cluster single-node, multi-node și RDMA
- Automatizarea instalării dependențelor (Xcode, uv, Node.js, Rust) cu gestionarea configurației
- Folosirea Nix flakes pentru build-uri EXO reproducibile și medii de dezvoltare
- Scrierea playbook-uri Ansible sau scripturi shell pentru furnizarea automată a clusterelor
Build-uri Reproducibile și Integrare CI
- Fixarea dependențelor și construirea dashboard-ului în pipeline-uri CI
- Rularea testelor de fum EXO în GitHub Actions sau GitLab CI runners
- Crearea de imagini aurii și fluxuri de lucru bazate pe snapshot pentru VM-uri macOS și Linux
- Versionarea cardurilor de modele personalizate alături de codul aplicației
Descoperirea Clusterelor și Automatizarea Rețelei
- Configurarea mDNS și DNS static pentru descoperirea fiabilă a nodurilor libp2p
- Automatizarea creării profilurilor de rețea și gestionarea podurilor Thunderbolt pe macOS
- Folosirea namespace-urilor personalizate (EXO_LIBP2P_NAMESPACE) pentru separarea clusterelor dev, staging și prod
- Reguli de firewall și segmentarea rețelei pentru medii multi-tenant
Gestionarea Stocării și Ciclului de Viață al Modelelor
- Proiectarea strategiilor EXO_MODELS_DIRS și EXO_MODELS_READ_ONLY_DIRS
- Montarea partajărilor NFS sau SAN ca depozite de modele read-only pentru furnizare rapidă
- Colectarea gunoiului de cache-uri învechite și politici de păstrare a versiunilor ponderate
- Automatizarea descărcării prealabile a modelelor și verificărilor de sănătate înainte de actualizări
Monitorizare și Alertare
- Trimiterea jurnalelor EXO către jurnalizare centralizată (ELK, Loki sau Splunk)
- Construirea de dashboard-uri Grafana din ieșirea EXO_TRACING_ENABLED
- Alertarea la schimbări de membri ai clusterului, evenimente OOM și creșteri de latență a inferenței
- Corelarea telemetriei hardware macmon cu regresiile de performanță ale modelelor
Actualizare, Revenire și Recuperare la Dezastru
- Stabilirea actualizărilor binare EXO într-un nod canary înainte de implementarea la nivel de flotă
- Revenirea la nivel de model: comutarea între versiuni cuantificate fără redescărcare
- Backup și restaurarea stării clusterului, namespace-urilor personalizate și a ponderilor din cache
- Documentarea runbook-urilor de recuperare pentru scenarii de reconstrucție totală a clusterului
Întărirea Securității și Conformitatea
- Aplicarea TLS la nivelul proxy-ului invers (nginx, traefik) pentru dashboard și API
- Implementarea limitării ratei API și a listei albe de IP-uri pentru endpoint-urile EXO
- Izolarea clusterelor cu VLAN-uri și politici de rețea zero-trust
- Auditarea accesului și menținerea unui inventar al modelelor și versiunilor implementate
Cerințe
- Experiență în practicile DevOps (CI/CD, IaC, orchestratie de containere)
- Cunoaștere a administrării sistemelor macOS sau Linux și gestionării pachetelor
- Înțelegerea conceptelor de rețea, DNS și stocare
Publicul țintă
- Ingineri DevOps
- Arhitecți de infrastructură
- SRE responsabili de sarcini de AI on-premise
21 Ore
Mărturii (2)
Craig a fost extrem de implicat în instruire, mereu asigurându-se că suntem atenți, adaptând exemplele la activitățile noastre zilnice și mereu oferind un răspuns când era întrebat, chiar dacă informația nu era inclusă în prezentare.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Curs - DevOps Foundation®
Tradus de catre o masina
Un grad ridicat de angajament și cunoștințe al instrucționarului
Jacek - Softsystem
Curs - DevOps Engineering Foundation (DOEF)®
Tradus de catre o masina