Intrati in legatura

Schița de curs

Infrastructura EXO ca Cod

  • Prezentare generală a modelelor de implementare EXO: cluster single-node, multi-node și RDMA
  • Automatizarea instalării dependențelor (Xcode, uv, Node.js, Rust) cu gestionarea configurației
  • Folosirea Nix flakes pentru build-uri EXO reproducibile și medii de dezvoltare
  • Scrierea playbook-uri Ansible sau scripturi shell pentru furnizarea automată a clusterelor

Build-uri Reproducibile și Integrare CI

  • Fixarea dependențelor și construirea dashboard-ului în pipeline-uri CI
  • Rularea testelor de fum EXO în GitHub Actions sau GitLab CI runners
  • Crearea de imagini aurii și fluxuri de lucru bazate pe snapshot pentru VM-uri macOS și Linux
  • Versionarea cardurilor de modele personalizate alături de codul aplicației

Descoperirea Clusterelor și Automatizarea Rețelei

  • Configurarea mDNS și DNS static pentru descoperirea fiabilă a nodurilor libp2p
  • Automatizarea creării profilurilor de rețea și gestionarea podurilor Thunderbolt pe macOS
  • Folosirea namespace-urilor personalizate (EXO_LIBP2P_NAMESPACE) pentru separarea clusterelor dev, staging și prod
  • Reguli de firewall și segmentarea rețelei pentru medii multi-tenant

Gestionarea Stocării și Ciclului de Viață al Modelelor

  • Proiectarea strategiilor EXO_MODELS_DIRS și EXO_MODELS_READ_ONLY_DIRS
  • Montarea partajărilor NFS sau SAN ca depozite de modele read-only pentru furnizare rapidă
  • Colectarea gunoiului de cache-uri învechite și politici de păstrare a versiunilor ponderate
  • Automatizarea descărcării prealabile a modelelor și verificărilor de sănătate înainte de actualizări

Monitorizare și Alertare

  • Trimiterea jurnalelor EXO către jurnalizare centralizată (ELK, Loki sau Splunk)
  • Construirea de dashboard-uri Grafana din ieșirea EXO_TRACING_ENABLED
  • Alertarea la schimbări de membri ai clusterului, evenimente OOM și creșteri de latență a inferenței
  • Corelarea telemetriei hardware macmon cu regresiile de performanță ale modelelor

Actualizare, Revenire și Recuperare la Dezastru

  • Stabilirea actualizărilor binare EXO într-un nod canary înainte de implementarea la nivel de flotă
  • Revenirea la nivel de model: comutarea între versiuni cuantificate fără redescărcare
  • Backup și restaurarea stării clusterului, namespace-urilor personalizate și a ponderilor din cache
  • Documentarea runbook-urilor de recuperare pentru scenarii de reconstrucție totală a clusterului

Întărirea Securității și Conformitatea

  • Aplicarea TLS la nivelul proxy-ului invers (nginx, traefik) pentru dashboard și API
  • Implementarea limitării ratei API și a listei albe de IP-uri pentru endpoint-urile EXO
  • Izolarea clusterelor cu VLAN-uri și politici de rețea zero-trust
  • Auditarea accesului și menținerea unui inventar al modelelor și versiunilor implementate

Cerințe

  • Experiență în practicile DevOps (CI/CD, IaC, orchestratie de containere)
  • Cunoaștere a administrării sistemelor macOS sau Linux și gestionării pachetelor
  • Înțelegerea conceptelor de rețea, DNS și stocare

Publicul țintă

  • Ingineri DevOps
  • Arhitecți de infrastructură
  • SRE responsabili de sarcini de AI on-premise
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (2)

Cursuri viitoare

Categorii înrudite