Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
-
Introducere
- Istoricul și conceptele Hadoop
- Ecosistemul
- Distribuții
- Arhitectura de nivel înalt
- Mituri despre Hadoop
- Provocări Hadoop (hardware / software)
- Laboratoare: discutați despre proiectele și problemele dumneavoastră de Big Data
-
Planificare și instalare
- Selectarea software-ului, distribuții Hadoop
- Dimensionarea clusterului, planificarea creșterii
- Selectarea hardware-ului și a rețelei
- Topologia rack-ului
- Instalare
- Multi-tenancy
- Structura directorului, jurnale
- Testare de performanță
- Laboratoare: instalare cluster, rulare teste de performanță
-
Operațiuni HDFS
- Concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-ului)
- Noduri și daemoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorizarea stării de sănătate
- Administrare prin linie de comandă și bazată pe browser
- Adăugarea spațiului de stocare, înlocuirea unităților defecte
- Laboratoare: familiarizare cu comenzile HDFS
-
Încărcarea datelor
- Flume pentru încărcarea jurnalelor și altor date în HDFS
- Sqoop pentru importul din baze de date SQL în HDFS, precum și pentru exportul înapoi în SQL
- Depozitarea datelor Hadoop cu Hive
- Copierea datelor între clustere (distcp)
- Utilizarea S3 ca complement pentru HDFS
- Bune practici și arhitecturi pentru încărcarea datelor
- Laboratoare: configurare și utilizare Flume, la fel pentru Sqoop
-
Operațiuni și administrare MapReduce
- Calcul paralel înainte de MapReduce: comparație între administrarea HPC și Hadoop
- Încărcări de cluster MapReduce
- Noduri și Daemoni (JobTracker, TaskTracker)
- Parcurgerea interfeței MapReduce
- Configurare MapReduce
- Configurare job
- Optimizare MapReduce
- Asigurarea MapReduce: ce să le spuneți programatorilor dumneavoastră
- Laboratoare: rulare exemple MapReduce
-
YARN: arhitectură nouă și capacități noi
- Obiectivele de proiectare și arhitectura de implementare YARN
- Noii actori: ResourceManager, NodeManager, Application Master
- Instalare YARN
- Planificarea job-urilor sub YARN
- Laboratoare: investigare planificare job-uri
-
Subiecte avansate
- Monitorizarea hardware
- Monitorizarea clusterului
- Adăugarea și eliminarea serverelor, actualizarea Hadoop
- Backup, recuperare și planificare a continuității afacerilor
- Fluxuri de lucru pentru job-uri Oozie
- Disponibilitate ridicată (HA) Hadoop
- Federația Hadoop
- Securizarea clusterului dumneavoastră cu Kerberos
- Laboratoare: configurare monitorizare
-
Trasee opționale
- Cloudera Manager pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest traseu, toate exercițiile și laboratoarele sunt efectuate în mediul de distribuție Cloudera (CDH5)
- Ambari pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest traseu, toate exercițiile și laboratoarele sunt efectuate în cadrul managerului de cluster Ambari și al platformei de date Hortonworks (HDP 2.0)
Cerințe
- confortabil cu administrarea de bază a sistemelor Linux
- abilități de bază de scripting
Cunoașterea Hadoop și a Calculului Distribuit nu este necesară, dar va fi introdusă și explicată în curs.
Mediu de laborator
Zero Instalare: Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi pus la dispoziția studenților.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty)
- un browser pentru a accesa clusterul. Recomandăm browserul Firefox cu extensia FoxyProxy instalată
21 Ore
Mărturii (1)
Exerciții practice. Clasa ar fi trebuit să dureze 5 zile, dar cele 3 zile au ajutat la clarificarea multor întrebări pe care le aveam din cauza lucrului cu NiFi.
James - BHG Financial
Curs - Apache NiFi for Administrators
Tradus de catre o masina