Schița de curs

  • Introducere
    • Hadoop istorie, concepte
    • Ecosistem
    • Distribuții
    • Arhitectură la nivel înalt
    • Hadoop mituri
    • Hadoop provocări (hardware/software)
    • Laboratoare: discutați proiectele și problemele dvs. Big Data.
  • Planificare si instalare
    • Selectarea software-ului, Hadoop distribuții
    • Dimensiunea clusterului, planificarea creșterii
    • Selectarea hardware-ului și a rețelei
    • Topologie de rack
    • Instalare
    • Multi-chiriere
    • Structura directorului, jurnalele
    • Benchmarking
    • Laboratoare: instalarea clusterului, rularea benchmark-urilor de performanță
  • operațiuni HDFS
    • Concepte (scalare orizontală, replicare, localitatea datelor, gradul de conștientizare a rackului)
    • Noduri și demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorizarea sănătății
    • Administrare prin linie de comandă și prin browser
    • Adăugarea spațiului de stocare, înlocuirea unităților defecte
    • Laboratoare: familiarizarea cu liniile de comandă HDFS
  • Ingestie de date
    • Flume pentru jurnalele și alte ingerări de date în HDFS
    • Sqoop pentru importarea din SQL baze de date în HDFS, precum și pentru exportul înapoi în SQL
    • Hadoop depozitare de date cu Hive
    • Copierea datelor între clustere (distcp)
    • Folosind S3 ca complementar cu HDFS
    • Cele mai bune practici și arhitecturi de asimilare a datelor
    • Labs: configurarea și utilizarea Flume, la fel pentru Sqoop
  • Operațiuni și administrare MapReduce
    • Calcul paralel înainte de mapreduce: comparați administrarea HPC vs Hadoop.
    • MapReduce încărcările clusterului
    • Noduri și demoni (JobTracker, TaskTracker)
    • MapReduce UI parcurge
    • Configurație Mapreduce
    • Configurare job
    • Optimizarea MapReduce
    • MR sigur: ce să le spuneți programatorilor
    • Labs: rularea exemplelor MapReduce
  • YARN: nouă arhitectură și noi capabilități
    • Obiectivele de proiectare YARN și arhitectura de implementare
    • Actori noi: ResourceManager, NodeManager, Application Master
    • Instalarea YARN
    • Programarea locurilor de muncă sub YARN
    • Laboratoare: investigați programarea locurilor de muncă
  • Subiecte avansate
    • Monitorizare hardware
    • Monitorizarea clusterelor
    • Adăugarea și eliminarea serverelor, upgrade Hadoop
    • Backup, recuperare și planificare a continuității afacerii
    • Oozie fluxuri de lucru
    • Hadoop disponibilitate ridicată (HA)
    • Hadoop Federația
    • Securizarea clusterului cu Kerberos
    • Laboratoare: configurați monitorizarea
  • Piese optionale
    • Cloudera Manager pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În această pistă, toate exercițiile și laboratoarele sunt efectuate în mediul de distribuție Cloudera (CDH5)
    • Ambari pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În această pistă, toate exercițiile și laboratoarele sunt efectuate în cadrul managerului de cluster Ambari și al platformei de date Hortonworks (HDP 2.0)

Cerințe

  • confortabil cu administrarea de bază Linux a sistemului
  • .
  • cunoștințe de bază de scripting

Cunoștințele de Hadoop și de calcul distribuit nu sunt necesare, dar vor fi introduse și explicate în cadrul cursului.

Mediul de laborator

Zero Install : Nu este nevoie de a instala software-ul hadoop pe studenți & rsquo; mașini! Un cluster hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows Putty este recomandat)
  • .
  • un browser pentru a accesa clusterul. Recomandăm browserul Firefox cu extensia FoxyProxy instalată
  • .
  21 ore

Numărul de participanți


Dată început

Dată sfârșit


Dates are subject to availability and take place between 09:30 and 16:30.

Pret per participant

Mărturii (3)

Cursuri înrudite

Categorii înrudite