Schița de curs

Modulul 1. Introducere în Hadoop

  • Hadoop Sistemul de fișiere distribuit (HDFS)
  • Calea de citire și calea de scriere
  • Gestionarea metadatelor sistemului de fișiere
  • Namenode și Datanode
  • Disponibilitate ridicată Namenode
  • Federația Namenode
  • Instrumentele din linia de comandă
  • Înțelegerea suportului REST

Modulul 2. Introducere în MapReduce

  • Analizarea datelor cu Hadoop
  • Hartă și reduce modelul
  • Java MapReduce
  • Scaling Out
  • Flux de date
  • Dezvoltarea funcțiilor combinatorului
  • Rularea unui job MapReduce distribuit

Modulul 3. Planificarea unui Hadoop Cluster

  • Alegerea unei distribuții și a unei versiuni a Hadoop
  • Versiuni și caracteristici
  • Selectarea hardware-ului
  • Selectarea hardware-ului maestru și muncitor
  • Dimensiunea clusterului
  • Selectarea și pregătirea sistemului de operare
  • Aspect de implementare
  • Configurarea utilizatorilor, grupurilor și privilegiilor
  • Configurare disc
  • Proiectarea rețelei

Modulul 4. Instalare și configurare

  • Instalare Hadoop
  • Configurație: o prezentare generală
  • Hadoop XML Fișierele de configurare
  • Variabile de mediu și scripturi Shell
  • Configurare logare
  • Gestionarea HDFS
  • Optimizare și reglare
  • Formatarea Namenode
  • Crearea unui director /tmp
  • Thinking Namenode Disponibilitate ridicată
  • Opțiunile de gardă
  • Configurație automată de failover
  • Formatați și Bootstrap Namenodes-urile
  • Federația Namenode

Modulul 5. Înțelegerea Hadoop I/O

  • Integritatea datelor în HDFS
  • Înțelegerea Codecurilor
  • Compresie și divizări de intrare
  • Utilizarea compresiei în MapReduce
  • Mecanismul de serializare
  • Structuri de date bazate pe fișiere
  • Formatul SequenceFile
  • Alte formate de fișiere și formate orientate pe coloane

Modulul 6. Dezvoltarea unei aplicații MapReduce

  • API-ul de configurare
  • Crearea mediului de dezvoltare
  • Gestionarea configurației
  • GenericOptionsParser, Tool și ToolRunner
  • Scrierea unui test unitar cu MRUnit
  • Cartograful și Reductorul
  • Rulează local pe datele de testare
  • Testarea driverului
  • Rulează pe un Cluster
  • Ambalarea și lansarea unui loc de muncă
  • Interfața de utilizare web MapReduce
  • Reglarea unui job

Modulul 7. Identitate, autentificare și autorizare

  • Gestionarea identității
  • Kerberos și Hadoop
  • Înțelegerea Autorizării

Modulul 8. Resursa Management

  • Ce este resursa Management?
  • Cotele HDFS
  • Programatori MapReduce
  • Anatomia unei aplicații YARN Run
  • Cereri de resurse
  • Durata de viață a aplicației
  • YARN în comparație cu MapReduce 1
  • Programare în YARN
  • Opțiuni de planificare
  • Configurarea programatorului de capacitate
  • Configurare corectă a planificatorului
  • Programare întârziată
  • Corectitudinea resurselor dominante

Modulul 9. Tipuri și formate MapReduce

  • Tipuri MapReduce
  • Lucrarea implicită MapReduce
  • Definirea formatelor de intrare
  • Gestionarea diviziunilor de intrare și a înregistrărilor
  • Intrare text și intrare binară
  • Gestionarea intrărilor multiple
  • Database Intrare (și ieșire)
  • Formate de ieșire
  • Ieșire text și ieșire binară
  • Gestionarea ieșirilor multiple
  • Ieșirea Database.

Modulul 10. Utilizarea caracteristicilor MapReduce

  • Utilizarea contoarelor
  • Citirea contoarelor încorporate
  • Contoare definite de utilizator Java.
  • Înțelegerea sortării
  • Utilizarea cache-ului distribuit

Modulul 11. Întreținerea clusterului și depanarea

  • Gestionarea Hadoop Proceselor
  • Pornirea și oprirea proceselor cu scripturi de pornire
  • Pornirea și oprirea proceselor manual
  • Sarcini de întreținere HDFS
  • Adăugarea unui Datanode
  • Dezafectarea unui Datanode
  • Verificarea integrității sistemului de fișiere cu fsck
  • Echilibrarea datelor blocului HDFS
  • Confruntarea cu un disc eșuat
  • Sarcini de întreținere MapReduce
  • Omorârea unui job MapReduce
  • Închiderea unei sarcini MapReduce
  • Gestionarea epuizării resurselor

Modulul 12. Monitorizare

  • Valorile Hadoop disponibile
  • Rolul SNMP
  • Monitorizarea sănătății
  • Verificări la nivel de gazdă
  • Verificări HDFS
  • Verificări MapReduce

Modulul 13. Backup și Recuperare

  • Copia de rezerva a datelor
  • Copie distribuită (distcp)
  • Ingestie paralelă de date
  • Metadatele Namenode
  21 ore
 

Numărul de participanți


Dată început

Dată sfârșit


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Mărturii (1)

Cursuri înrudite

Categorii înrudite