Schița de curs

Introducere, Obiective și Strategie de Migrare

  • Obiectivele cursului, alinierea profilului participanților și criteriile de succes
  • Abordări de migrare de nivel înalt și considerente de risc
  • Configurarea spațiilor de lucru, depozitelor și seturilor de date pentru laborator

Ziua 1 — Fundamente și Arhitectură de Migrare

  • Concepte Lakehouse, prezentare generală Delta Lake și arhitectura Databricks
  • Diferențe SMP vs MPP și implicații pentru migrare
  • Design Medalion (Bronze→Silver→Gold) și prezentare generală Unity Catalog

Laborator Ziua 1 — Traducerea unei Proceduri Stocate

  • Migrarea practică a unei proceduri stocate eșantion într-un notebook
  • Maparea tabelelor temporare și cursoarelor la transformări DataFrame
  • Validarea și compararea cu rezultatul original

Ziua 2 — Delta Lake Avansat și Încărcare Incrementală

  • Tranzacții ACID, jurnale de commit, versionare și time travel
  • Auto Loader, modele MERGE INTO, upserts și evoluția schemei
  • OPTIMIZE, VACUUM, Z-ORDER, partiționare și optimizare a stocării

Laborator Ziua 2 — Ingerare Incrementală și Optimizare

  • Implementarea ingerării Auto Loader și a fluxurilor de lucru MERGE
  • Aplicarea OPTIMIZE, Z-ORDER și VACUUM; validarea rezultatelor
  • Măsurarea îmbunătățirilor de performanță la citire/scriere

Ziua 3 — SQL în Databricks, Performanță și Depanare

  • Funcționalități SQL analitice: funcții de fereastră, funcții de ordin superior, manipulare JSON/array
  • Citirea interfeței Spark UI, DAG-uri, shuffle-uri, etape, sarcini și diagnosticarea punctelor de blocaj
  • Modele de optimizare a interogărilor: join-uri broadcast, indicii, caching și reducerea spill

Laborator Ziua 3 — Refactorizare SQL și Optimizare a Performanței

  • Refactorizarea unui proces SQL greu în Spark SQL optimizat
  • Utilizarea urmelor Spark UI pentru a identifica și remedia probleme de skew și shuffle
  • Benchmark înainte/după și documentarea pașilor de optimizare

Ziua 4 — PySpark Tactical: Înlocuirea Logicii Procedurale

  • Modelul de execuție Spark: driver, executors, evaluare leneșă și strategii de partiționare
  • Transformarea buclelor și cursoarelor în operații vectorizate DataFrame
  • Modularizare, UDF-uri/pandas UDF-uri, widget-uri și biblioteci reutilizabile

Laborator Ziua 4 — Refactorizarea Scripturilor Procedurale

  • Refactorizarea unui script ETL procedural în notebook-uri PySpark modulare
  • Introducerea parametrizării, testelor de tip unit și a funcțiilor reutilizabile
  • Revizuirea codului și aplicarea listei de verificare a celor mai bune practici

Ziua 5 — Orchestrare, Pipeline de la Cap la Cap și Cele Mai Bune Practici

  • Databricks Workflows: design job, dependențe de sarcini, declanșatoare și gestionarea erorilor
  • Proiectarea pipeline-urilor incrementale Medalion cu reguli de calitate și validare de schemă
  • Integrarea cu Git (GitHub/Azure DevOps), CI și strategii de testare pentru logica PySpark

Laborator Ziua 5 — Construirea unui Pipeline Complet de la Cap la Cap

  • Asamblarea unui pipeline Bronze→Silver→Gold orchestrat cu Workflows
  • Implementarea înregistrărilor, auditării, încercărilor repetate și validărilor automate
  • Executarea întregului pipeline, validarea rezultatelor și pregătirea notelor de implementare

Operaționalizare, Gestionare și Pregătire pentru Producție

  • Cele mai bune practici de gestionare Unity Catalog, linie de descendență și controale de acces
  • Costuri, dimensionarea clusterelor, scalare automată și modele de concurență a job-urilor
  • Liste de verificare pentru implementare, strategii de rollback și crearea runbook-urilor

Revizuire Finală, Transfer de Cunoaștere și Următorii Pași

  • Prezentări ale participanților privind munca de migrare și lecțiile învățate
  • Analiza gap-urilor, activități recomandate de urmat și predarea materialelor de training
  • Referințe, căi de învățare suplimentare și opțiuni de suport

Cerințe

  • Înțelegerea conceptelor de inginerie de date
  • Experiență cu SQL și proceduri stocate (Synapse / SQL Server)
  • Familiaritate cu conceptele de orchestrere ETL (ADF sau similar)

Publicul Țintă

  • Manageri tehnologici cu un fundal în inginerie de date
  • Ingineri de date care trec logica procedurală OLAP la modele Lakehouse
  • Ingineri de platformă responsabili de adoptarea Databricks
 35 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite