Schița de curs

1: HDFS (17%)

  • Descrieți funcția demonilor HDFS
  • Descrieți funcționarea normală a unui cluster Apache Hadoop, atât în stocarea datelor, cât și în procesarea datelor.
  • Identificați caracteristicile actuale ale sistemelor de calcul care motivează un sistem precum Apache Hadoop.
  • Clasificați obiectivele majore ale HDFS Design
  • Având în vedere un scenariu, identificați un caz de utilizare adecvat pentru HDFS Federation
  • Identificați componentele și daemonul unui cluster HDFS HA-Quorum
  • Analizați rolul securității HDFS (Kerberos)
  • Determinați cea mai bună alegere de serializare a datelor pentru un scenariu dat
  • Descrieți căile de citire și scriere a fișierelor
  • Identificați comenzile pentru a manipula fișierele în Hadoop File System Shell

2: YARN și MapReduce versiunea 2 (MRv2) (17%)

  • Înțelegeți modul în care actualizarea unui cluster de la Hadoop 1 la Hadoop 2 afectează setările clusterului
  • Înțelegeți cum să implementați MapReduce v2 (MRv2 / YARN), inclusiv toți demonii YARN
  • Înțelegeți strategia de proiectare de bază pentru MapReduce v2 (MRv2)
  • Determinați modul în care YARN gestionează alocările de resurse
  • Identificați fluxul de lucru al jobului MapReduce care rulează pe YARN
  • Determinați ce fișiere trebuie să modificați și cum pentru a migra un cluster de la MapReduce versiunea 1 (MRv1) la MapReduce versiunea 2 (MRv2) care rulează pe YARN.

3: Hadoop Planificarea grupurilor (16%)

  • Principalele puncte de luat în considerare în alegerea hardware-ului și a sistemelor de operare pentru a găzdui un cluster Apache Hadoop.
  • Analizați opțiunile în selectarea unui sistem de operare
  • Înțelegeți reglarea nucleului și schimbarea discurilor
  • Având în vedere un scenariu și un model de încărcare de lucru, identificați o configurație hardware adecvată scenariului
  • Având în vedere un scenariu, determinați componentele ecosistemului pe care clusterul dvs. trebuie să le ruleze pentru a îndeplini SLA
  • Dimensiunea clusterului: având în vedere un scenariu și frecvența de execuție, identificați specificul sarcinii de lucru, inclusiv CPU, memorie, stocare, I/O disc
  • Dimensiunea și configurarea discurilor, inclusiv cerințele JBOD versus RAID, SAN, virtualizare și dimensionarea discului într-un cluster
  • Topologii de rețea: înțelegeți utilizarea rețelei în Hadoop (atât pentru HDFS, cât și pentru MapReduce) și propuneți sau identificați componentele cheie de proiectare a rețelei pentru un scenariu dat

4: Hadoop Instalare și administrare cluster (25%)

  • Având în vedere un scenariu, identificați modul în care clusterul va gestiona defecțiunile de disc și de mașină
  • Analizați o configurație de înregistrare și un format de fișier de configurare a jurnalului
  • Înțelegeți elementele de bază ale valorilor Hadoop și monitorizării sănătății clusterului
  • Identificați funcția și scopul instrumentelor disponibile pentru monitorizarea clusterului
  • Să poată instala toate componentele ecosistemului în CDH 5, inclusiv (dar fără a se limita la): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive și Pig
  • Identificați funcția și scopul instrumentelor disponibile pentru gestionarea sistemului de fișiere Apache Hadoop.

5: Resursa Management (10%)

  • Înțelegeți obiectivele generale de proiectare ale fiecăruia dintre Hadoop programatori
  • Având în vedere un scenariu, determinați modul în care FIFO Scheduler alocă resursele clusterului
  • Având în vedere un scenariu, determinați modul în care Fair Scheduler alocă resursele clusterului sub YARN
  • Având în vedere un scenariu, determinați modul în care Capacity Scheduler alocă resursele clusterului

6: Monitorizare și înregistrare (15%)

  • Înțelegeți funcțiile și caracteristicile abilităților de colectare a metricilor lui Hadoop.
  • Analizați interfețele web NameNode și JobTracker
  • Înțelegeți cum să monitorizați demonii cluster
  • Identificați și monitorizați utilizarea CPU pe nodurile master
  • Descrieți cum să monitorizați schimbul și alocarea memoriei pe toate nodurile
  • Identificați cum să vizualizați și să gestionați fișierele jurnal ale lui Hadoop.
  • Interpretați un fișier jurnal

Cerințe

  • Cunoștințe de bază Linux de administrare
  • Cunoștințe de programare de bază
  35 ore

Numărul de participanți



Pret per participant

Mărturii (3)

Cursuri înrudite

Categorii înrudite