Schița de curs

Introducere, Obiective și Strategie de Migrație

  • Obiectivele cursului, alinierea profilului participantilor și criteriile de succes
  • Abordări la nivel înalt de migrație și considerente privind riscurile
  • Setarea lucrărilor, depozitelor și seturilor de date de laborator

Ziua 1 — Fundamentele Migrației și Arhitectura

  • Concepte Lakehouse, prezentare generală a Delta Lake și arhitecturii Databricks
  • diferențele dintre SMP vs MPP și implicațiile lor pentru migrație
  • Designul Medallion (Bronze→Silver→Gold) și prezentare generală a Unity Catalog

Laborator Ziua 1 — Traducerea unei Proceduri Stocate

  • Migrarea practică a unui exemplu de procedură stocată către un notebook
  • Maparea tabelelor temporare și cursorilor la transformări DataFrame
  • Validarea și compararea cu iesirea inițială

Ziua 2 — Delta Lake Avansat & Incremental Loading

  • Tranzacții ACID, jurnale de confirmare, versionare și călătorie în timp
  • Auto Loader, modele MERGE INTO, upserts și evoluția schemei
  • OPTIMIZE, VACUUM, Z-ORDER, partiționare și optimizarea stocării

Laborator Ziua 2 — Încorporare Incrementală & Optimizare

  • Implementarea încorporării Auto Loader și a fluxurilor de muncă MERGE
  • Aplicarea OPTIMIZE, Z-ORDER și VACUUM; validarea rezultatelor
  • Măsurarea îmbunătățirilor performanței de citire/scriere

Ziua 3 — SQL în Databricks, Performanță & Debugging

  • Caracteristici analitice SQL: funcții de fereastră, funcții de ordin superior, gestionare JSON/array
  • Citirea interfeței Spark UI, DAG-uri, interschimburi, etape, sarcini și diagnosticarea gâturilor de strangulare
  • modele de optimizare a query-urilor: alăturări broadcast, hint-uri, cache și reducerea declanșărilor

Laborator Ziua 3 — Refactoring SQL & Optimizare Performanța

  • Refactorarea unui proces pesant SQL în Spark SQL optimizat
  • Utilizarea urmelor interfeței Spark UI pentru a identifica și corecta declanșările și interschimbările
  • Benchmarking înainte/după și documentarea etapelor de optimizare

Ziua 4 — PySpark Tactical: Înlocuirea Logicii Procedurale

  • Modelul de execuție Spark: driver, executori, evaluare lăzilă și strategii de partiționare
  • Transformarea buclelor și cursorilor în operațiuni vectorizate DataFrame
  • Modularizare, UDFs/pandas UDFs, widget-uri și biblioteci reutilizabile

Laborator Ziua 4 — Refactoring Scripte Procedurale

  • Refactorarea unui script ETL procedural în notebook-uri PySpark modulare
  • Introducerea parametrizării, testelor de tip unit și funcțiilor reutilizabile
  • Revizuirea codului și aplicarea listei de verificare a celor mai bune practici

Ziua 5 — Orchestrație, Pipeline End-to-End & Cel Mai Bine Practică

  • Databricks Workflows: design de sarcini, dependențe între sarcini, declanșatoare și gestionarea erorilor
  • Proiectarea pipeline-urilor Medallion incrementale cu reguli de calitate și validarea schemei
  • Integrarea cu Git (GitHub/Azure DevOps), CI, și strategii de testare pentru logică PySpark

Laborator Ziua 5 — Construirea unui Pipeline Complet End-to-End

  • Asamblarea pipeline-ului Bronze→Silver→Gold orchestrate cu Workflows
  • Implementarea logării, auditului, a reincercărilor și a validărilor automate
  • Rularea pipeline-ului complet, validarea iesirilor și pregătirea notelor de implementare

Operationalizare, Guvernanță și Gata pentru Producție

  • Practici optime de guvernanță Unity Catalog, liniaj și controale de acces
  • Costuri, dimensiunea clusterelor, scalarea automată și modele de concurență a sarcinilor
  • Liste de verificare pentru implementare, strategii de revenire la stadiul anterior și crearea unui ghid operativ

Recenzie Finală, Transfer de Cunoștințe și Următoarele Pași

  • Prezentările participantilor cu lucrul de migrație și lecțiile învățate
  • Analiza lacunelor, activitățile următoare recomandate și preluarea materialelor de instruire
  • Referințe, căi de învățare suplimentare și opțiuni de suport

Cerințe

  • O înțelegere a conceptelor de inginerie a datelor
  • Experiență cu SQL și proceduri stocate (Synapse / SQL Server)
  • Familiarizare cu conceptele de orchestrație ETL (ADF sau similar)

Publicul țintă

  • Manageri tehnici cu un fundal în ingineria datelor
  • Ingineri de date care se îmbunătățesc din logica procedurală OLAP către modele Lakehouse
  • Ingineri de platformă responsabili pentru adoptarea Databricks
 35 ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite