Intrati in legatura

Schița de curs

Introducere în EXO și Clustering AI Local

  • Prezentare generală a cadrului EXO și a ecosistemului exo-explore
  • Compararea inferenței în cloud centralizat vs inferența locală distribuită
  • Arhitectura: descoperirea dispozitivelor libp2p, backend MLX, panoul de control și straturile API
  • Cerințe hardware: Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, stocare partajată

Instalarea EXO pe macOS

  • Configurarea Xcode, Metal ToolChain și cerințelor preliminare macOS
  • Instalarea uv, Node.js, Rust nightly toolchain
  • Instalarea versiunii macmon pentru monitorizarea Apple Silicon
  • Clonarea depozitului și construirea panoului de control cu npm
  • Pornirea EXO din sursă și verificarea panoului de control localhost:52415

Instalarea EXO pe Linux

  • Instalarea dependențelor via apt sau Homebrew pe Linux
  • Configurarea uv, Node.js 18+ și Rust nightly
  • Construirea panoului de control și rularea EXO în modul CPU-only
  • Structura directorului: căi XDG Base Directory pentru config, date, cache și loguri

Descoperirea Automată a Dispozitivelor și Formarea Clusterelor

  • Înțelegerea descoperirii automate bazate pe libp2p pe rețele locale
  • Configurarea spațiilor de nume personalizate cu EXO_LIBP2P_NAMESPACE pentru izolarea clusterelor
  • Verificarea apartenenței nodurilor în vizualizarea clusterului din panoul de control
  • Gestionarea eșecurilor de descoperire și a problemelor de segmentare a rețelei

Activarea RDMA peste Thunderbolt 5

  • Arhitectura RDMA și afirmația de reducere a latenței cu 99%
  • Activarea RDMA în modul Recovery macOS cu rdma_ctl
  • Cerințe de cablu și constrângeri de topologie a porturilor pe Mac Studio
  • Potrivirea versiunilor macOS pe toate nodurile clusterului
  • Depanarea descoperirii RDMA și configurația DHCP

Implementarea Modelelor de Frontieră

  • Utilizarea panoului de control pentru încărcarea și fragmentarea modelelor DeepSeek v3.1, Qwen3-235B și familia Llama
  • Previzualizarea plasării instanțelor cu punctul final API /instance/previews
  • Crearea instanțelor de modele cu fragmentare pipeline sau tensor-parallel
  • Configurarea cardurilor de modele personalizate de pe HuggingFace hub

Monitorizarea și Depanarea

  • Citirea jurnalelor EXO și înțelegerea urmăririi distribuite
  • Interpretarea stării clusterului în vizualizarea clusterului din panoul de control
  • Diagnosticarea eșecurilor nodurilor de lucru și comportamentul de reconectare
  • Utilizarea EXO_TRACING_ENABLED pentru analiza punctelor de blocaj de performanță

Întreținerea și Actualizările Clusterului

  • Actualizarea binarilor EXO și procedurile de reconstruire a panoului de control
  • Migrarea cache-urilor modelelor și gestionarea modelelor pre-descărcate peste NFS
  • Îndepărtarea grațioasă a nodurilor și reechilibrarea sarcinilor de lucru

Cerințe

  • Înțelegerea elementelor de bază ale rețelelor (IP, subnetting, firewalls)
  • Experiență în administrarea liniei de comandă macOS sau Linux
  • Familiaritate cu gestionarea pachetelor Python (pip/uv) și instrumentele Node.js

Publicul țintă

  • Administratori de sistem
  • Ingineri DevOps
  • Arhitecți de infrastructură AI responsabili de implementarea LLM on-premise
 21 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite