Schița de curs
PySpark & Machine Learning
Modulul 1: Bazele Big Data & Spark
- Prezentare generală a ecosistemului Big Data și rolul Spark în platformele moderne de date
- Înțelegerea arhitecturii Spark: driver, executors, cluster manager, evaluare leneșă, DAG și planificarea execuției
- Diferențe între API-urile RDD și DataFrame și când să folosești fiecare abordare
- Crearea și configurarea SparkSession și înțelegerea elementelor de bază ale configurației aplicațiilor
Modulul 2: PySpark DataFrames
- Citirea și scrierea datelor din surse și formate de întreprindere (CSV, JSON, Parquet, Delta)
- Lucrul cu PySpark DataFrames: transformări, acțiuni, expresii de coloană, filtrare, îmbinări și agregații
- Implementarea operațiilor avansate, cum ar fi funcțiile de fereastră, gestionarea marcajelor temporale și lucrul cu date imbricate
- Aplicarea verificărilor de calitate a datelor și scrierea de cod PySpark reutilizabil și menținabil
Modulul 3: Procesarea Eficientă a Seturilor Mari de Date
- Înțelegerea elementelor de bază ale performanței: strategii de partiționare, comportamentul shuffle, caching și persistență
- Utilizarea tehnicilor de optimizare, inclusiv îmbinări broadcast și analiza planurilor de execuție
- Procesarea eficientă a seturilor mari de date și cele mai bune practici pentru fluxurile de lucru scalabile
- Înțelegerea evoluției schemei și a formatelor moderne de stocare utilizate în mediile de întreprindere
Modulul 4: Ingineria Caracteristicilor la Scară
- Efectuarea ingineriei caracteristicilor cu Spark MLlib: gestionarea valorilor lipsă, codificarea variabilelor categorice și scalarea caracteristicilor
- Proiectarea pașilor de preprocesare reutilizabili și pregătirea seturilor de date pentru pipeline-urile de Machine Learning
- Introducere în selecția caracteristicilor și gestionarea seturilor de date dezechilibrate
Modulul 5: Machine Learning cu Spark MLlib
- Înțelegerea arhitecturii MLlib și a modelului Estimator/Transformer
- Antrenarea modelelor de regresie și clasificare la scară (Regresie Liniară, Regresie Logistică, Arbori de Decizie, Păduri Aleatoare)
- Compararea modelelor și interpretarea rezultatelor în fluxurile de lucru distribuite de Machine Learning
Modulul 6: Pipeline-uri ML de la Cap la Cap
- Construirea de pipeline-uri de Machine Learning de la cap la cap, combinând preprocesare, ingineria caracteristicilor și modelare
- Aplicarea strategiilor de împărțire antrenament/validare/test
- Efectuarea validării încrucișate și ajustarea hiperparametrilor folosind căutarea pe grilă și căutarea aleatoare
- Structurarea experimentelor de Machine Learning reproducibile
Modulul 7: Evaluarea Modelelor & Luarea Deciziilor Practice în ML
- Aplicarea metricelor de evaluare adecvate pentru probleme de regresie și clasificare
- Identificarea supraadaptării și subadaptării și luarea deciziilor practice de selecție a modelelor
- Interpretarea importanței caracteristicilor și înțelegerea comportamentului modelelor
Modulul 8: Practici de Producție & Întreprindere
- Persistarea și încărcarea modelelor în Spark
- Implementarea fluxurilor de lucru de inferență pe loturi pe seturi mari de date
- Înțelegerea ciclului de viață al Machine Learning-ului în mediile de întreprindere
- Introducere în conceptele de versionare, urmărire a experimentelor și strategii de testare de bază
Rezultat Practic
- Abilitatea de a lucra autonom cu PySpark
- Abilitatea de a procesa seturi mari de date eficient
- Abilitatea de a efectua ingineria caracteristicilor la scară
- Abilitatea de a construi pipeline-uri scalabile de Machine Learning
Cerințe
Participanții ar trebui să aibă următoarele cunoștințe preliminare:
Cunoștințe de bază de programare în Python, inclusiv lucrul cu funcții, structuri de date și biblioteci
Înțelegere fundamentală a conceptelor de analiză a datelor, cum ar fi seturi de date, transformări și agregații
Cunoștințe de bază despre SQL și concepte de date relaționale
Înțelegere introductivă a conceptelor de Machine Learning, cum ar fi seturi de date de antrenament, caracteristici și metrici de evaluare
Familiaritate cu mediile de linie de comandă și practici de bază de dezvoltare software este recomandată
Experiență cu Pandas, NumPy sau alte biblioteci similare de procesare a datelor este utilă, dar nu obligatorie.
Mărturii (1)
Mi-a plăcut că a fost practic. Am adorat să aplic cunoștințele teoretice cu exemple practice.
Aurelia-Adriana - Allianz Services Romania
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina