Schița de curs

  1. Introducere în Scala

    • O scurtă introducere în Scala
    • Laborator: Familiarizarea cu Scala
  2. Bazele Spark

    • Context și istoric
    • Spark și Hadoop
    • Concepte și arhitectură Spark
    • Ecosistemul Spark (core, spark sql, mlib, streaming)
    • Laborator: Instalarea și rularea Spark
  3. Prima privire asupra Spark

    • Rularea Spark în modul local
    • Interfața web Spark
    • Shell-ul Spark
    • Analiza setului de date – partea 1
    • Inspectarea RDD-urilor
    • Laborator: Explorarea shell-ului Spark
  4. RDD-uri

    • Concepte RDD
    • Partiții
    • Operații / transformări RDD
    • Tipuri de RDD
    • RDD-uri pereche Cheie-Valoare
    • MapReduce pe RDD
    • Stocarea în cache și persistarea
    • Laborator: crearea și inspectarea RDD-urilor; Stocarea RDD-urilor în cache
  5. Programarea API Spark

    • Introducere în API-ul Spark / API-ul RDD
    • Trimiterea primului program în Spark
    • Depanare / logare
    • Proprietăți de configurare
    • Laborator: Programare în API-ul Spark, Trimiterea job-urilor
  6. Spark SQL

    • Suport SQL în Spark
    • Dataframes
    • Definirea tabelelor și importul seturilor de date
    • Interogarea dataframes folosind SQL
    • Formate de stocare: JSON / Parquet
    • Laborator: Crearea și interogarea dataframes; evaluarea formatelor de date
  7. MLlib

    • Introducere în MLlib
    • Algoritmi MLlib
    • Laborator: Scrierea aplicațiilor MLib
  8. GraphX

    • Prezentare generală a bibliotecii GraphX
    • API-uri GraphX
    • Laborator: Procesarea datelor grafice folosind Spark
  9. Spark Streaming

    • Prezentare generală a streaming-ului
    • Evaluarea platformelor de streaming
    • Operații de streaming
    • Operații cu fereastră glisantă
    • Laborator: Scrierea aplicațiilor de streaming Spark
  10. Spark și Hadoop

    • Introducere în Hadoop (HDFS / YARN)
    • Arhitectura Hadoop + Spark
    • Rularea Spark pe Hadoop YARN
    • Procesarea fișierelor HDFS folosind Spark
  11. Performanță și optimizare Spark

    • Variabile de broadcast
    • Acumulatori
    • Gestionarea memoriei și stocarea în cache
  12. Operațiuni Spark

    • Implementarea Spark în producție
    • Modele de implementare exemplare
    • Configurații
    • Monitorizare
    • Depanare

Cerințe

PRE-REQUISITE

cunoașterea unuia dintre limbajele Java / Scala / Python (lucrările noastre de laborator sunt în Scala și Python)
cunoștințe de bază despre mediul de dezvoltare Linux (navigare în linia de comandă / editare fișiere folosind VI sau nano)

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (6)

Cursuri viitoare

Categorii înrudite