Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Săptămâna 1 — Introducere în Ingineria Datelor
- Fundamentele ingineriei datelor și stivele moderne de date
- Modele și surse de ingestie a datelor
- Concepte și cazuri de utilizare pentru procesarea pe loturi vs streaming
- Laborator practic: ingestia datelor de probă în stocarea cloud
Săptămâna 2 — Insigna de Fundație Databricks Lakehouse
- Fundamentele platformei Databricks și navigarea în spațiul de lucru
- Concepte Delta Lake: ACID, călătorie în timp și evoluția schemei
- Securitatea spațiului de lucru, controale de acces și noțiuni de bază ale Unity Catalog
- Laborator practic: crearea și gestionarea tabelelor Delta
Săptămâna 3 — SQL Avansat pe Databricks
- Constructe SQL avansate și funcții de fereastră la scară mare
- Optimizarea interogărilor, planuri de explicație și modele conștiente de costuri
- Vizualizări materializate, caching și ajustarea performanței
- Laborator practic: optimizarea interogărilor analitice pe seturi de date mari
Săptămâna 4 — Pregătire pentru Certificarea Databricks Certified Developer for Apache Spark
- Arhitectura Spark, RDD-uri, DataFrames și o analiză aprofundată a Datasets
- Transformări și acțiuni cheie în Spark; considerații de performanță
- Bazele streaming-ului Spark și modele de streaming structurat
- Exerciții de pregătire pentru examen și probleme practice
Săptămâna 5 — Introducere în Modelarea Datelor
- Concepte: modelare dimensională, design star/schema și normalizare
- Modelarea Lakehouse vs abordările tradiționale de depozitare
- Modele de design pentru seturi de date pregătite pentru analiză
- Laborator practic: construirea tabelelor și vizualizărilor pregătite pentru consum
Săptămâna 6 — Introducere în Instrumente de Import și Automatizarea Ingestiei Datelor
- Conectori și instrumente de ingestie pentru Databricks (AWS Glue, Data Factory, Kafka)
- Modele de ingestie streaming și design micro-batch
- Validarea datelor, verificări de calitate și aplicarea schemei
- Laborator practic: construirea pipeline-urilor reziliente de ingestie
Săptămâna 7 — Introducere în Git Flow și CI/CD pentru Ingineria Datelor
- Strategii de ramificare Git Flow și organizarea repository-ului
- Pipeline-uri CI/CD pentru notebook-uri, job-uri și infrastructură ca cod
- Testare, linting și automatizare a implementării pentru codul de date
- Laborator practic: implementarea fluxului de lucru bazat pe Git și implementarea automată a job-urilor
Săptămâna 8 — Pregătire pentru Certificarea Databricks Certified Data Engineer Associate și Modele de Inginerie a Datelor
- Recapitulare teme de certificare și exerciții practice
- Modele arhitecturale: bronz/argint/aur, CDC, dimensiuni care se schimbă lent
- Modele operaționale: monitorizare, alerte și linie de descendență
- Laborator practic: pipeline de la un capăt la altul aplicând modele de inginerie
Săptămâna 9 — Introducere în Airflow și Astronomer; Scripting
- Concepte Airflow: DAG-uri, task-uri, operatori și planificare
- Prezentare generală a platformei Astronomer și bune practici de orchestratie
- Scripting pentru automatizare: modele de scripturi Python pentru sarcini de date
- Laborator practic: orchestrarea job-urilor Databricks cu DAG-uri Airflow
Săptămâna 10 — Vizualizarea Datelor, Tableau și Proiect Final Personalizat
- Conectarea Tableau la Databricks și bune practici pentru straturile BI
- Principii de design pentru panouri de bord și vizualizări conștiente de performanță
- Capstone: scopirea, implementarea și prezentarea proiectului final personalizat
- Prezentări finale, recenzii de la colegi și feedback de la instructori
Rezumat și Pași Următori
Cerințe
- Înțelegerea conceptelor de bază ale SQL și datelor
- Experiență în programare în Python sau Scala
- Familiaritate cu serviciile cloud și mediile virtuale
Publicul țintă
- Ingineri de date aspiranți și practicanți
- Dezvoltatori ETL/BI și ingineri de analiză
- Echipe de platformă de date și DevOps care sprijină pipeline-uri
350 Ore