Schița de curs

Secțiunea 1: Introducere în Hadoop

  • istorie hadoop, concepte
  • sistem eco
  • distribuţiile
  • arhitectura de nivel inalt
  • mituri hadoop
  • provocări Hadoop
  • hardware/software
  • laborator: prima privire la Hadoop

Secțiunea 2: HDFS

  • Design și arhitectură
  • concepte (scalare orizontală, replicare, localitatea datelor, conștientizarea rack-ului)
  • Daemoni: Namenode, Namenode secundar, Data node
  • comunicații / bătăi ale inimii
  • integritatea datelor
  • cale de citire/scriere
  • Namenode High Availability (HA), Federație
  • laboratoare: Interacțiunea cu HDFS

Secțiunea 3: Reducerea hărții

  • concepte și arhitectură
  • daemons (MRV1): jobtracker / tasktracker
  • faze: driver, mapper, shuffle/sort, reducer
  • Map Reduce Versiunea 1 și Versiunea 2 (YARN)
  • Interne de Map Reduce
  • Introducere în programul Java Map Reduce
  • laboratoare: Rularea unui program de probă MapReduce

Secțiunea 4: Porc

  • pig vs java map reduce
  • fluxul de muncă de porc
  • limba latină porc
  • ETL cu Pig
  • Transformări și îmbinări
  • Funcții definite de utilizator (UDF)
  • laboratoare: scrierea de scripturi Pig pentru a analiza datele

Secțiunea 5: Hive

  • arhitectura si designul
  • tipuri de date
  • SQL suport în Hive
  • Crearea Hive tabele și interogare
  • despărțitori
  • se alătură
  • prelucrarea textului
  • laboratoare : diverse laboratoare de prelucrare a datelor cu Hive

Secțiunea 6: HBază

  • concepte și arhitectură
  • hbase vs RDBMS vs Cassandra
  • HBase Java API
  • Date de serie cronologică despre HBase
  • proiectarea schemei
  • laboratoare: Interacțiunea cu HBase folosind shell; programare în HBase Java API ; Exercițiu de proiectare a schemei

Cerințe

  • confortabil cu limbajul de programare Java (cele mai multe exerciții de programare sunt în java)
  • .
  • confortabil în mediul Linux (să fie capabil să navigheze Linux linia de comandă, să editeze fișiere folosind vi / nano)
  • .

Mediul de laborator

Zero Install : Nu este nevoie să instalați software-ul hadoop pe studenți’ mașini! Un cluster hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows Putty este recomandat)
  • .
  • un browser pentru a accesa clusterul. Vă recomandăm browserul Firefox
  • .
 28 ore

Numărul de participanți



Pret per participant

Mărturii (3)

Cursuri înrudite

Categorii înrudite