Schița de curs

Săptămâna 1 — Introducere în Ingineria Datelor

  • Fundamentele ingineriei datelor și stivele moderne de date
  • Modele și surse de ingestie a datelor
  • Concepte și cazuri de utilizare pentru procesarea pe loturi vs streaming
  • Laborator practic: ingestia datelor de probă în stocarea cloud

Săptămâna 2 — Insigna de Fundație Databricks Lakehouse

  • Fundamentele platformei Databricks și navigarea în spațiul de lucru
  • Concepte Delta Lake: ACID, călătorie în timp și evoluția schemei
  • Securitatea spațiului de lucru, controale de acces și noțiuni de bază ale Unity Catalog
  • Laborator practic: crearea și gestionarea tabelelor Delta

Săptămâna 3 — SQL Avansat pe Databricks

  • Constructe SQL avansate și funcții de fereastră la scară mare
  • Optimizarea interogărilor, planuri de explicație și modele conștiente de costuri
  • Vizualizări materializate, caching și ajustarea performanței
  • Laborator practic: optimizarea interogărilor analitice pe seturi de date mari

Săptămâna 4 — Pregătire pentru Certificarea Databricks Certified Developer for Apache Spark

  • Arhitectura Spark, RDD-uri, DataFrames și o analiză aprofundată a Datasets
  • Transformări și acțiuni cheie în Spark; considerații de performanță
  • Bazele streaming-ului Spark și modele de streaming structurat
  • Exerciții de pregătire pentru examen și probleme practice

Săptămâna 5 — Introducere în Modelarea Datelor

  • Concepte: modelare dimensională, design star/schema și normalizare
  • Modelarea Lakehouse vs abordările tradiționale de depozitare
  • Modele de design pentru seturi de date pregătite pentru analiză
  • Laborator practic: construirea tabelelor și vizualizărilor pregătite pentru consum

Săptămâna 6 — Introducere în Instrumente de Import și Automatizarea Ingestiei Datelor

  • Conectori și instrumente de ingestie pentru Databricks (AWS Glue, Data Factory, Kafka)
  • Modele de ingestie streaming și design micro-batch
  • Validarea datelor, verificări de calitate și aplicarea schemei
  • Laborator practic: construirea pipeline-urilor reziliente de ingestie

Săptămâna 7 — Introducere în Git Flow și CI/CD pentru Ingineria Datelor

  • Strategii de ramificare Git Flow și organizarea repository-ului
  • Pipeline-uri CI/CD pentru notebook-uri, job-uri și infrastructură ca cod
  • Testare, linting și automatizare a implementării pentru codul de date
  • Laborator practic: implementarea fluxului de lucru bazat pe Git și implementarea automată a job-urilor

Săptămâna 8 — Pregătire pentru Certificarea Databricks Certified Data Engineer Associate și Modele de Inginerie a Datelor

  • Recapitulare teme de certificare și exerciții practice
  • Modele arhitecturale: bronz/argint/aur, CDC, dimensiuni care se schimbă lent
  • Modele operaționale: monitorizare, alerte și linie de descendență
  • Laborator practic: pipeline de la un capăt la altul aplicând modele de inginerie

Săptămâna 9 — Introducere în Airflow și Astronomer; Scripting

  • Concepte Airflow: DAG-uri, task-uri, operatori și planificare
  • Prezentare generală a platformei Astronomer și bune practici de orchestratie
  • Scripting pentru automatizare: modele de scripturi Python pentru sarcini de date
  • Laborator practic: orchestrarea job-urilor Databricks cu DAG-uri Airflow

Săptămâna 10 — Vizualizarea Datelor, Tableau și Proiect Final Personalizat

  • Conectarea Tableau la Databricks și bune practici pentru straturile BI
  • Principii de design pentru panouri de bord și vizualizări conștiente de performanță
  • Capstone: scopirea, implementarea și prezentarea proiectului final personalizat
  • Prezentări finale, recenzii de la colegi și feedback de la instructori

Rezumat și Pași Următori

Cerințe

  • Înțelegerea conceptelor de bază ale SQL și datelor
  • Experiență în programare în Python sau Scala
  • Familiaritate cu serviciile cloud și mediile virtuale

Publicul țintă

  • Ingineri de date aspiranți și practicanți
  • Dezvoltatori ETL/BI și ingineri de analiză
  • Echipe de platformă de date și DevOps care sprijină pipeline-uri
 350 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite