Schița de curs
- Introducere
- Hadoop istorie, concepte
- Ecosistem
- Distribuții
- Arhitectură la nivel înalt
- Hadoop mituri
- Hadoop provocări (hardware/software)
- Laboratoare: discutați proiectele și problemele dvs. Big Data.
- Planificare si instalare
- Selectarea software-ului, Hadoop distribuții
- Dimensiunea clusterului, planificarea creșterii
- Selectarea hardware-ului și a rețelei
- Topologie de rack
- Instalare
- Multi-chiriere
- Structura directorului, jurnalele
- Benchmarking
- Laboratoare: instalarea clusterului, rularea benchmark-urilor de performanță
- operațiuni HDFS
- Concepte (scalare orizontală, replicare, localitatea datelor, gradul de conștientizare a rackului)
- Noduri și demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorizarea sănătății
- Administrare prin linie de comandă și prin browser
- Adăugarea spațiului de stocare, înlocuirea unităților defecte
- Laboratoare: familiarizarea cu liniile de comandă HDFS
- Ingestie de date
- Flume pentru jurnalele și alte ingerări de date în HDFS
- Sqoop pentru importarea din SQL baze de date în HDFS, precum și pentru exportul înapoi în SQL
- Hadoop depozitare de date cu Hive
- Copierea datelor între clustere (distcp)
- Folosind S3 ca complementar cu HDFS
- Cele mai bune practici și arhitecturi de asimilare a datelor
- Labs: configurarea și utilizarea Flume, la fel pentru Sqoop
- Operațiuni și administrare MapReduce
- Calcul paralel înainte de mapreduce: comparați administrarea HPC vs Hadoop.
- MapReduce încărcările clusterului
- Noduri și demoni (JobTracker, TaskTracker)
- MapReduce UI parcurge
- Configurație Mapreduce
- Configurare job
- Optimizarea MapReduce
- MR sigur: ce să le spuneți programatorilor
- Labs: rularea exemplelor MapReduce
- YARN: nouă arhitectură și noi capabilități
- Obiectivele de proiectare YARN și arhitectura de implementare
- Actori noi: ResourceManager, NodeManager, Application Master
- Instalarea YARN
- Programarea locurilor de muncă sub YARN
- Laboratoare: investigați programarea locurilor de muncă
- Subiecte avansate
- Monitorizare hardware
- Monitorizarea clusterelor
- Adăugarea și eliminarea serverelor, upgrade Hadoop
- Backup, recuperare și planificare a continuității afacerii
- Oozie fluxuri de lucru
- Hadoop disponibilitate ridicată (HA)
- Hadoop Federația
- Securizarea clusterului cu Kerberos
- Laboratoare: configurați monitorizarea
- Piese optionale
- Cloudera Manager pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În această pistă, toate exercițiile și laboratoarele sunt efectuate în mediul de distribuție Cloudera (CDH5)
- Ambari pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În această pistă, toate exercițiile și laboratoarele sunt efectuate în cadrul managerului de cluster Ambari și al platformei de date Hortonworks (HDP 2.0)
Cerințe
- confortabil cu administrarea de bază Linux a sistemului .
- cunoștințe de bază de scripting
Cunoștințele de Hadoop și de calcul distribuit nu sunt necesare, dar vor fi introduse și explicate în cadrul cursului.
Mediul de laborator
Zero Install : Nu este nevoie de a instala software-ul hadoop pe studenți & rsquo; mașini! Un cluster hadoop funcțional va fi pus la dispoziția studenților.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți ssh, pentru Windows Putty este recomandat) .
- un browser pentru a accesa clusterul. Recomandăm browserul Firefox cu extensia FoxyProxy instalată .
Mărturii (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curs - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Curs - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay