Schița de curs

Introducere:

  • Apache Spark în Hadoop Ecosistem
  • Scurtă introducere pentru python, scala

Bazele (teorie):

  • Arhitectură
  • RDD
  • Transformare și acțiuni
  • Etapă, Sarcină, Dependențe

Folosind Databricks mediu înțelegeți elementele de bază (atelier practic):

  • Exerciții folosind RDD API
  • Funcții de bază de acțiune și transformare
  • PairRDD
  • A te alatura
  • Strategii de stocare în cache
  • Exerciții folosind API-ul DataFrame
  • SparkSQL
  • DataFrame: selectați, filtrați, grupați, sortați
  • UDF (funcție definită de utilizator)
  • Privind API-ul DataSet
  • Streaming

Folosind mediul AWS, înțelegeți implementarea (atelier practic):

  • Elementele de bază ale AWS Glue
  • Înțelegeți diferențele dintre AWS EMR și AWS Glue
  • Exemple de locuri de muncă în ambele medii
  • Înțelegeți argumentele pro și contra

Suplimentar:

  • Introducere în Apache Airflow orchestrație

Cerințe

Competențe de programare (preferabil python, scala)

SQL de bază

  21 ore

Numărul de participanți



Pret per participant

Mărturii (3)

Cursuri înrudite

Big Data Analytics in Health

  21 ore

Categorii înrudite