Schița de curs
-
Introducere în Scala
- O scurtă introducere în Scala
- Laborator: Familiarizarea cu Scala
-
Bazele Spark
- Context și istoric
- Spark și Hadoop
- Concepte și arhitectură Spark
- Ecosistemul Spark (core, spark sql, mlib, streaming)
- Laborator: Instalarea și rularea Spark
-
Prima privire asupra Spark
- Rularea Spark în modul local
- Interfața web Spark
- Shell-ul Spark
- Analiza setului de date – partea 1
- Inspectarea RDD-urilor
- Laborator: Explorarea shell-ului Spark
-
RDD-uri
- Concepte RDD
- Partiții
- Operații / transformări RDD
- Tipuri de RDD
- RDD-uri pereche Cheie-Valoare
- MapReduce pe RDD
- Stocarea în cache și persistarea
- Laborator: crearea și inspectarea RDD-urilor; Stocarea RDD-urilor în cache
-
Programarea API Spark
- Introducere în API-ul Spark / API-ul RDD
- Trimiterea primului program în Spark
- Depanare / logare
- Proprietăți de configurare
- Laborator: Programare în API-ul Spark, Trimiterea job-urilor
-
Spark SQL
- Suport SQL în Spark
- Dataframes
- Definirea tabelelor și importul seturilor de date
- Interogarea dataframes folosind SQL
- Formate de stocare: JSON / Parquet
- Laborator: Crearea și interogarea dataframes; evaluarea formatelor de date
-
MLlib
- Introducere în MLlib
- Algoritmi MLlib
- Laborator: Scrierea aplicațiilor MLib
-
GraphX
- Prezentare generală a bibliotecii GraphX
- API-uri GraphX
- Laborator: Procesarea datelor grafice folosind Spark
-
Spark Streaming
- Prezentare generală a streaming-ului
- Evaluarea platformelor de streaming
- Operații de streaming
- Operații cu fereastră glisantă
- Laborator: Scrierea aplicațiilor de streaming Spark
-
Spark și Hadoop
- Introducere în Hadoop (HDFS / YARN)
- Arhitectura Hadoop + Spark
- Rularea Spark pe Hadoop YARN
- Procesarea fișierelor HDFS folosind Spark
-
Performanță și optimizare Spark
- Variabile de broadcast
- Acumulatori
- Gestionarea memoriei și stocarea în cache
-
Operațiuni Spark
- Implementarea Spark în producție
- Modele de implementare exemplare
- Configurații
- Monitorizare
- Depanare
Cerințe
PRE-REQUISITE
cunoașterea unuia dintre limbajele Java / Scala / Python (lucrările noastre de laborator sunt în Scala și Python)
cunoștințe de bază despre mediul de dezvoltare Linux (navigare în linia de comandă / editare fișiere folosind VI sau nano)
Mărturii (6)
Făcerea exercițiilor similare în moduri diferite ajută cu adevărat la înțelegerea capacităților fiecărei componente (Hadoop/Spark, standalone/cluster) atât individual, cât și împreună. Mi-a oferit idei despre cum ar trebui să testezi aplicația mea pe mașina locală în timp ce dezvolt versus când este implementată pe un cluster.
Thomas Carcaud - IT Frankfurt GmbH
Curs - Spark for Developers
Tradus de catre o masina
Ajay a fost foarte prietenos, de ajutor și, de asemenea, bine informat despre subiectul pe care îl discuta.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curs - Spark for Developers
Tradus de catre o masina
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curs - Spark for Developers
Tradus de catre o masina
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curs - Spark for Developers
Tradus de catre o masina
We know a lot more about the whole environment.
John Kidd
Curs - Spark for Developers
Tradus de catre o masina
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curs - Spark for Developers
Tradus de catre o masina