Schița de curs
Introducere, Obiective și Strategie de Migrare
- Obiectivele cursului, alinierea profilului participanților și criteriile de succes
- Abordări de migrare de nivel înalt și considerente de risc
- Configurarea spațiilor de lucru, depozitelor și seturilor de date pentru laborator
Ziua 1 — Fundamente și Arhitectură de Migrare
- Concepte Lakehouse, prezentare generală Delta Lake și arhitectura Databricks
- Diferențe SMP vs MPP și implicații pentru migrare
- Design Medalion (Bronze→Silver→Gold) și prezentare generală Unity Catalog
Laborator Ziua 1 — Traducerea unei Proceduri Stocate
- Migrarea practică a unei proceduri stocate eșantion într-un notebook
- Maparea tabelelor temporare și cursoarelor la transformări DataFrame
- Validarea și compararea cu rezultatul original
Ziua 2 — Delta Lake Avansat și Încărcare Incrementală
- Tranzacții ACID, jurnale de commit, versionare și time travel
- Auto Loader, modele MERGE INTO, upserts și evoluția schemei
- OPTIMIZE, VACUUM, Z-ORDER, partiționare și optimizare a stocării
Laborator Ziua 2 — Ingerare Incrementală și Optimizare
- Implementarea ingerării Auto Loader și a fluxurilor de lucru MERGE
- Aplicarea OPTIMIZE, Z-ORDER și VACUUM; validarea rezultatelor
- Măsurarea îmbunătățirilor de performanță la citire/scriere
Ziua 3 — SQL în Databricks, Performanță și Depanare
- Funcționalități SQL analitice: funcții de fereastră, funcții de ordin superior, manipulare JSON/array
- Citirea interfeței Spark UI, DAG-uri, shuffle-uri, etape, sarcini și diagnosticarea punctelor de blocaj
- Modele de optimizare a interogărilor: join-uri broadcast, indicii, caching și reducerea spill
Laborator Ziua 3 — Refactorizare SQL și Optimizare a Performanței
- Refactorizarea unui proces SQL greu în Spark SQL optimizat
- Utilizarea urmelor Spark UI pentru a identifica și remedia probleme de skew și shuffle
- Benchmark înainte/după și documentarea pașilor de optimizare
Ziua 4 — PySpark Tactical: Înlocuirea Logicii Procedurale
- Modelul de execuție Spark: driver, executors, evaluare leneșă și strategii de partiționare
- Transformarea buclelor și cursoarelor în operații vectorizate DataFrame
- Modularizare, UDF-uri/pandas UDF-uri, widget-uri și biblioteci reutilizabile
Laborator Ziua 4 — Refactorizarea Scripturilor Procedurale
- Refactorizarea unui script ETL procedural în notebook-uri PySpark modulare
- Introducerea parametrizării, testelor de tip unit și a funcțiilor reutilizabile
- Revizuirea codului și aplicarea listei de verificare a celor mai bune practici
Ziua 5 — Orchestrare, Pipeline de la Cap la Cap și Cele Mai Bune Practici
- Databricks Workflows: design job, dependențe de sarcini, declanșatoare și gestionarea erorilor
- Proiectarea pipeline-urilor incrementale Medalion cu reguli de calitate și validare de schemă
- Integrarea cu Git (GitHub/Azure DevOps), CI și strategii de testare pentru logica PySpark
Laborator Ziua 5 — Construirea unui Pipeline Complet de la Cap la Cap
- Asamblarea unui pipeline Bronze→Silver→Gold orchestrat cu Workflows
- Implementarea înregistrărilor, auditării, încercărilor repetate și validărilor automate
- Executarea întregului pipeline, validarea rezultatelor și pregătirea notelor de implementare
Operaționalizare, Gestionare și Pregătire pentru Producție
- Cele mai bune practici de gestionare Unity Catalog, linie de descendență și controale de acces
- Costuri, dimensionarea clusterelor, scalare automată și modele de concurență a job-urilor
- Liste de verificare pentru implementare, strategii de rollback și crearea runbook-urilor
Revizuire Finală, Transfer de Cunoaștere și Următorii Pași
- Prezentări ale participanților privind munca de migrare și lecțiile învățate
- Analiza gap-urilor, activități recomandate de urmat și predarea materialelor de training
- Referințe, căi de învățare suplimentare și opțiuni de suport
Cerințe
- Înțelegerea conceptelor de inginerie de date
- Experiență cu SQL și proceduri stocate (Synapse / SQL Server)
- Familiaritate cu conceptele de orchestrere ETL (ADF sau similar)
Publicul Țintă
- Manageri tehnologici cu un fundal în inginerie de date
- Ingineri de date care trec logica procedurală OLAP la modele Lakehouse
- Ingineri de platformă responsabili de adoptarea Databricks