Schița de curs
Introducere
Înțelegerea datelor mari
Prezentare generală a Spark
Prezentare generală a Python
Prezentare generală a PySpark
- Distribuirea datelor folosind cadrul Resilient Distributed Datasets
- Distribuirea calculelor folosind operatorii API Spark
Configurarea Python cu Spark
Configurarea PySpark
Utilizarea instanțelor Amazon Web Services (AWS) EC2 pentru Spark
Configurarea Databricks
Configurarea clusterului AWS EMR
Învățarea elementelor de bază ale programării în Python
- Începutul lucrului cu Python
- Utilizarea Jupyter Notebook
- Utilizarea variabilelor și a tipurilor de date simple
- Lucrul cu liste
- Utilizarea instrucțiunilor if
- Utilizarea intrărilor utilizatorului
- Lucrul cu bucle while
- Implementarea funcțiilor
- Lucrul cu clase
- Lucrul cu fișiere și excepții
- Lucrul cu proiecte, date și API-uri
Învățarea elementelor de bază ale DataFrame-ului Spark
- Începutul lucrului cu DataFrame-uri Spark
- Implementarea operațiilor de bază cu Spark
- Utilizarea operațiilor Groupby și Aggregate
- Lucrul cu marcaje temporale și date
Lucrul la un exercițiu de proiect cu DataFrame Spark
Înțelegerea învățării automate cu MLlib
Lucrul cu MLlib, Spark și Python pentru învățarea automată
Înțelegerea regresiilor
- Învățarea teoriei regresiei liniare
- Implementarea unui cod de evaluare a regresiei
- Lucrul la un exercițiu de regresie liniară
- Învățarea teoriei regresiei logistice
- Implementarea unui cod de regresie logistică
- Lucrul la un exercițiu de regresie logistică
Înțelegerea pădurilor aleatoare și a arborilor de decizie
- Învățarea teoriei metodelor arborescente
- Implementarea codurilor pentru arbori de decizie și păduri aleatoare
- Lucrul la un exercițiu de clasificare cu păduri aleatoare
Lucrul cu gruparea K-means
- Înțelegerea teoriei grupării K-means
- Implementarea unui cod de grupare K-means
- Lucrul la un exercițiu de grupare
Lucrul cu sisteme de recomandare
Implementarea procesării limbajului natural
- Înțelegerea procesării limbajului natural (NLP)
- Prezentare generală a instrumentelor NLP
- Lucrul la un exercițiu NLP
Transmisia în flux cu Spark pe Python
- Prezentare generală a transmisiei în flux cu Spark
- Exercițiu de transmisie în flux cu Spark
Observații finale
Cerințe
- Cunoștințe generale de programare
Public țintă
- Dezvoltatori
- Profesioniști IT
- Oameni de știință ai datelor
Mărturii (6)
Mi-a plăcut că a fost practic. Am adorat să aplic cunoștințele teoretice cu exemple practice.
Aurelia-Adriana - Allianz Services Romania
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Cursul a abordat o serie de subiecte foarte complexe și interconectate, iar Pablo are o expertiză profundă în fiecare dintre ele. Uneori, nuanțele erau pierdute în comunicare și/sau din cauza presiunilor temporale, ceea ce a putut duce la neîndeplinirea unor așteptări. De asemenea, au fost câteva probleme cu configurarea UHG/Azure Databricks, dar Pablo și UHG le-au rezolvat rapid odată ce au devenit vizibile - pentru mine, acest lucru a demonstrat un nivel ridicat de înțelegere și profesionalism între UHG și Pablo,
Michael Monks - Tech NorthWest Skillnet
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Atenție individuală.
ARCHANA ANILKUMAR - PPL
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Formare practică..
Abraham Thomas - PPL
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Lecțiile au fost predate într-un notebook Jupyter. Subiectele erau structurate cu o succesiune logică și ajutau în mod natural la dezvoltarea sesiunii de la părțile mai simple până la cele mai complexe. Sunt deja un utilizator avansat al Python, cu experiență în Machine Learning, așa că am găsit cursul mai ușor de urmărit decât, posibil, cei dintre colegii mei care au participat la acest curs de instruire. Apreciez faptul că unele din conceptele cele mai elementare au fost omise și s-a concentrat pe aspectele cele mai importante.
Angela DeLaMora - ADT, LLC
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
sarcini de exercițiu
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina