Schița de curs

Introducere

Scala Programarea în profunzime Review

  • Sintaxă și structură
  • Controlul fluxului și funcții

Internelor Spark

  • Seturi de date distribuite reziliente (RDD)
  • Script Spark pentru a crea un grafic în cluster

Prezentare generală a Spark Streaming

  • Arhitectura de streaming
  • Intervale în streaming
  • Toleranța la erori

Pregătirea mediului de dezvoltare

  • Instalarea și configurarea Apache Spark
  • Instalarea și configurarea IDE Scala IDE
  • Instalarea și configurarea JDK

Spark Streaming De la începător la avansat

  • Lucrul cu RDD's cheie/valoare
  • Filtrarea RDD's
  • Îmbunătățirea scripturilor Spark cu expresii regulate
  • Partajarea datelor pe un cluster
  • Lucrul cu seturi de date de rețea
  • Implementarea algoritmilor BFS
  • Crearea de scripturi de driver Spark
  • Urmărirea în timp real cu ajutorul scripturilor
  • Scrierea de aplicații continue
  • Regresia liniară în flux
  • Utilizarea bibliotecii Spark Machine Learning

Spark și clusterele

  • Gruparea dependențelor și a scripturilor Spark utilizând instrumentul SBT
  • Utilizarea EMR pentru ilustrarea clusterelor
  • Optimizarea prin partiționarea RDD's
  • Utilizarea jurnalelor Spark

Integrare în Spark Streaming

  • Integrarea Apache Kafka și lucrul cu subiectele Kafka
  • Integrarea Apache Fume și lucrul cu configurații Flume bazate pe pull/ush
  • Scrierea unei clase de receptor personalizate
  • Integrarea Cassandra și expunerea datelor ca servicii în timp real

În producție

  • Ambalarea unei aplicații și rularea acesteia cu Spark-Submit
  • Depanarea, reglarea și depanarea lucrărilor Spark și a clusterelor Spark Jobs

Rezumat și concluzii

Cerințe

  • Programming și experiență în scripting

Audiență

  • Inginerii de software
  21 ore

Numărul de participanți



Pret per participant

Mărturii (4)

Cursuri înrudite

Big Data Analytics in Health

  21 ore

Categorii înrudite