Schița de curs

Introducere:

  • Apache Spark în Hadoop Ecosistem
  • Scurtă introducere pentru python, scala

Bazele (teorie):

  • Arhitectură
  • RDD
  • Transformare și acțiuni
  • Etapă, Sarcină, Dependențe

Folosind Databricks mediu înțelegeți elementele de bază (atelier practic):

  • Exerciții folosind RDD API
  • Funcții de bază de acțiune și transformare
  • PairRDD
  • A te alatura
  • Strategii de stocare în cache
  • Exerciții folosind API-ul DataFrame
  • SparkSQL
  • DataFrame: selectați, filtrați, grupați, sortați
  • UDF (funcție definită de utilizator)
  • Privind API-ul DataSet
  • Streaming

Folosind mediul AWS, înțelegeți implementarea (atelier practic):

  • Elementele de bază ale AWS Glue
  • Înțelegeți diferențele dintre AWS EMR și AWS Glue
  • Exemple de locuri de muncă în ambele medii
  • Înțelegeți argumentele pro și contra

Suplimentar:

  • Introducere în Apache Airflow orchestrație

Cerințe

Competențe de programare (preferabil python, scala)

SQL de bază

  21 ore
 

Numărul de participanți


Dată început

Dată sfârșit


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Mărturii (3)

Cursuri înrudite

Big Data Analytics in Health

  21 ore

Categorii înrudite