Schița de curs

    Introducere Scala O scurtă introducere în Scala Labs: Cunoașterea Scala Spark Elemente de bază Context și istorie Concepte și arhitectură Spark și Hadoop Spark Ecosistem Spark (core, spark sql, mlib, streaming) Labs: Instalarea și rularea Spark Prima privire la Spark Running Spark în mod local Spark web UI Spark shell Analiza setului de date – partea 1 Inspectarea RDD-urilor Labs: Spark shell explorare RDD-uri Concepte RDD-uri Partiții RDD Operații / transformări Tipuri RDD Pereche cheie-valoare RDD-uri MapReduce pe RDD Laboratoare de cache și persistență: creare și inspectare RDD; Memorarea în cache RDD-uri Programare API Spark Introducere în API-ul Spark / API-ul RDD Trimiterea primului program la Spark Depanare/înregistrare Proprietăți de configurare Laboratoare: Programare în API-ul Spark, Trimiterea job-urilor Suport Spark SQL SQL în Spark Dataframes Definirea tabelelor și importarea seturilor de date Interogarea datelor cadre folosind SQL Formate de stocare : JSON / Parquet Labs : Crearea și interogarea cadrelor de date; evaluarea formatelor de date MLlib MLlib intro Algoritmi MLlib Labs: Scrierea aplicațiilor MLib Prezentare generală a bibliotecii GraphX GraphX API-urile GraphX Labs: Procesarea datelor grafice folosind Spark Spark Streaming Prezentare generală Streaming Evaluarea platformelor de Streaming Operațiuni de Streaming Operațiuni cu ferestre glisante Labs: Scriere aplicații Hadoop și Spark Spark (streaming) HDFS / YARN) Arhitectura Hadoop + Spark Rularea Spark pe Hadoop YARN Procesarea fișierelor HDFS folosind Spark Spark Performanță și reglare Variabile de difuzare Acumulatoare Gestionare memorie și stocare în cache Operații Spark Implementarea Spark în producție Exemple de șabloane de implementare Configurații Monitorizare Depanare

Cerințe

CONDIȚII PREALABILE

familiaritate cu limbajul Java / Scala / Python (laboratoarele noastre în Scala și Python) înțelegere de bază a mediului de dezvoltare Linux (navigare în linia de comandă / editarea fișierelor folosind VI sau nano)

 21 ore

Numărul de participanți



Pret per participant

Cursuri înrudite

Big Data Analytics in Health

21 ore

Categorii înrudite