Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Introducere în AIOps Predictiv
- Prezentare generală a analiticii predictive în operațiunile IT
- Surse de date pentru predicție (jurnale, metrici, evenimente)
- Concepte cheie în previzionarea seriilor temporale și modele de anomalii
Proiectarea Modelelor de Prevenire a Incidentelor
- Etichetarea incidentelor istorice și a comportamentului sistemului
- Alegerea și antrenarea modelelor (de ex., LSTM, Random Forest, AutoML)
- Evaluarea performanței modelului și gestionarea falselor pozitive
Colectarea Datelor și Ingineria Caracteristicilor
- Ingestia și alinierea datelor din jurnale și metrici pentru intrarea în model
- Extragerea caracteristicilor din date structurate și nestructurate
- Gestionarea zgomotului și a datelor lipsă în pipeline-urile operaționale
Automatizarea Analizei Cauzelor Principale (RCA)
- Corelarea bazată pe grafuri a serviciilor și infrastructurii
- Utilizarea ML pentru a deduce cauzele probabile din lanțuri de evenimente
- Vizualizarea RCA cu panouri de bord conștiente de topologie
Remedierea și Automatizarea Fluxurilor de Lucru
- Integrarea cu platforme de automatizare (de ex., Ansible, Rundeck)
- Declanșarea revenirilor, repornirilor sau redirecționării traficului
- Auditarea și documentarea intervențiilor automate
Scalabilitatea Pipeline-urilor Inteligente AIOps
- MLOps pentru observabilitate: reantrenarea și versionarea modelelor
- Rularea predicțiilor în timp real pe noduri distribuite
- Practici recomandate pentru implementarea AIOps în medii de producție
Studii de Caz și Aplicații Practice
- Analiza datelor reale de incidente folosind modele AIOps predictive
- Implementarea pipeline-urilor RCA cu date sintetice și de producție
- Revizuirea cazurilor de utilizare din industrie: întreruperi în cloud, instabilitatea microserviciilor, degradări ale rețelei
Rezumat și Pași Următori
Cerințe
- Experiență cu sisteme de monitorizare precum Prometheus sau ELK
- Cunoștințe de lucru cu Python și învățare automată de bază
- Familiaritate cu fluxurile de lucru ale gestionării incidentelor
Publicul Țintă
- Ingineri senior de fiabilitate a site-urilor (SREs)
- Arhitecți de automatizare IT
- Responsabili de platforme DevOps și observabilitate
14 Ore