Schița de curs

1.1Hadoop Concepte

1.1.1HDFS

    Design of HDFS Command line interface Hadoop File System

1.1.2 Clustere

    Anatomia unui cluster Mater Nod / Slave Node Nume Nod / Data Node

1.2 Manipularea datelor

1.2.1 MapReduce detaliat

    Faza hărții Reduceți faza Amestecare

1.2.2 Analitice cu Map Reduce

    Group-By cu MapReduce Distribuții de frecvență și sortare cu MapReduce Plotting rezultate (GNU Plot) Histograme cu MapReduce Scatter ploturi cu MapReduce Parsare seturi de date complexe Numărarea cu MapReduce și Combiners Generați rapoarte

 

1.2.3 Curățarea datelor

    Curățarea documentelor Căutare de șiruri neclare Conectarea înregistrărilor / deduplicarea datelor Transformați și sortați datele evenimentelor Validați fiabilitatea sursei Trimite valori aberante

1.2.4 Extragerea și transformarea datelor

    Transformarea jurnalelor Utilizarea Apache Pig pentru a filtra Utilizarea Apache Pig pentru a sorta Utilizarea Apache Pig pentru a sesiuni

1.2.5 Uniri avansate

    Îmbinarea datelor în Mapper utilizând MapReduce Îmbinarea datelor utilizând unirea replicată Apache Pig Îmbinarea datelor sortate utilizând îmbinarea Apache Pig Îmbinarea datelor deformate folosind Apache Pig îmbinarea înclinată Utilizarea unei îmbinări pe hartă în Apache Hive Utilizarea îmbinărilor exterioare complete optimizate în Apache [1 ] Asocierea datelor utilizând un depozit extern de valori cheie

1.3 Tehnici de diagnosticare și optimizare a performanței

    Hartă Investigarea vârfurilor în datele de intrare Identificarea problemelor de deformare a datelor de pe hartă Debitul sarcinii de hartă Fișiere mici Fișiere nedivizabile
Reducere Prea puține sau prea multe reductoare
  • Reduceți problemele legate de distorsiunea datelor
  • Reduceți debitul sarcinilor
  • Amestecați și sortați încet
  • Locuri de muncă concurente și limitarea programatorului
  • Stiva de depozitare și cod neoptimizat
  • Defecțiuni hardware
  • Conflict CPU
  • Sarcini Extragerea și vizualizarea timpilor de execuție a sarcinilor
  • Profilarea hărții și reducerea sarcinilor
  • Evitați reductorul
  • Filtrați și proiectați
  • Folosind combinatorul
  • Sortare rapidă cu comparatoare
  • Colectarea datelor denaturate
  • Reduceți atenuarea deformării
  • Cerințe

    Participanților nu li se cere să aibă vreo abilitate specifică, deoarece instruirea se concentrează pe abilitățile utilizatorilor finali, atât pentru administrarea cât și pentru manipularea datelor sub Apache Hadoop

      21 ore
     

    Numărul de participanți


    Dată început

    Dată sfârșit


    Dates are subject to availability and take place between 09:30 and 16:30.
    Open Training Courses require 5+ participants.

    Mărturii (3)

    Cursuri înrudite

    Categorii înrudite