Schița de curs
Introducere
Înțelegere Big Data
Prezentare generală a Spark
Prezentare generală a Python
Prezentare generală a PySpark
- Distribuirea datelor utilizând cadrul pentru seturi de date distribuite reziliente
- Distribuirea calculelor utilizând operatorii Spark API
Configurarea Python cu Spark
Configurarea PySpark
Utilizarea Amazon Web Services (AWS) Instanțelor EC2 pentru Spark
Configurarea Databricks
Configurarea clusterului AWS EMR
Învățarea elementelor de bază ale Python Programming
- Noțiuni introductive cu Python
- Utilizarea Jupyter Notebook
- Utilizarea variabilelor și a tipurilor simple de date
- Lucrul cu listele
- Utilizarea declarațiilor if
- Utilizarea intrărilor utilizatorului
- Lucrul cu buclele while
- Implementarea funcțiilor
- Lucrul cu clasele
- Lucrul cu fișiere și excepții
- Lucrul cu proiecte, date și API-uri
Învățarea elementelor de bază ale Spark DataFrame
- Noțiuni introductive cu Spark DataFrame
- Implementarea operațiunilor de bază cu Spark
- Utilizarea operațiilor Groupby și Aggregate
- Lucrul cu mărci temporale și date
Lucrul la un exercițiu de proiect Spark DataFrame
Înțelegerea Machine Learning cu MLlib
Lucrul cu MLlib, Spark și Python pentru Machine Learning
Înțelegerea regresiilor
- Învățarea teoriei regresiei liniare
- Implementarea unui cod de evaluare a regresiei
- Lucrul pe un exemplu de exercițiu de regresie liniară
- Învățarea teoriei regresiei logistice
- Implementarea unui cod de regresie logistică
- Lucrul pe un exemplu de exercițiu de regresie logistică
Înțelegerea Random Forests și a arborilor de decizie
- Învățarea teoriei metodelor arborelui
- Implementarea arborilor de decizie și a codurilor Random Forest
- Lucrul pe un exemplu de exercițiu de clasificare Random Forest
Lucrul cu K-means Clustering
- Înțelegerea teoriei grupării K-means
- Implementarea unui cod de clusterizare K-means
- Lucrul pe un exemplu de exercițiu de clusterizare
Lucrul cu sistemele de recomandare
Implementarea procesării limbajului natural
- Înțelegerea Natural Language Processing (NLP)
- Prezentare generală a instrumentelor NLP
- Lucrul pe un exemplu de exercițiu NLP
Streaming cu Spark pe Python
- Prezentare generală Streaming cu Spark
- Exemplu Spark Streaming de exercițiu
Observații de încheiere
Cerințe
- Competențe generale de programare
Audiență
- Dezvoltatori
- Profesioniști IT
- Cercetători de date
Mărturii (6)
Mi place că era practic. Am apreciat să aplic cunoștințele teoretice cu ajutorul exemplelor practice.
Aurelia-Adriana - Allianz Services Romania
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Cursul se refera la o serie de teme foarte complexe și interconectate, iar Pablo are o experiență profundă în fiecare dintre ele. Uneori, nuanțele erau pierdute în comunicare sau din cauza presiunii temporale, ceea ce a putut duce la faptul că anumite așteptări nu au fost complet îndeplinite. De asemenea, existau câteva probleme de configurare UHG/Azure Databricks, dar Pablo și UHG le-au rezolvat rapid odată ce s-au manifestat - ceea ce pentru mine arată un nivel ridicat de înțelegere și profesionalism între UHG și Pablo,
Michael Monks - Tech NorthWest Skillnet
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Atenție individuală.
ARCHANA ANILKUMAR - PPL
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Antrenament practic..
Abraham Thomas - PPL
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Leziunile au fost predate într-un notebook Jupyter. Subiectele erau structurate cu o secvență logică și ajutau natural la dezvoltarea sesiunii de la părțile mai ușoare spre cele mai complexe. Sunt deja un utilizator avansat al Python cu cunoștințe din domeniul Machine Learning, așa că mi-a fost mai ușor să urmăresc cursul decât, posibil, uneia dintre colegii mei care au participat la formare. Appreciez faptul că s-au omis cele mai elementare concepte și că s-a concentrat pe problemele cele mai substanțiale.
Angela DeLaMora - ADT, LLC
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
teme de practică
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina