Schița de curs

Introducere

Înțelegerea arhitecturii Hadoop și a conceptelor cheie

Înțelegerea Hadoop Sistemul de fișiere distribuite (HDFS)

    Prezentare generală asupra HDFS și designul său arhitectural Interacțiunea cu HDFS Efectuarea operațiunilor de bază pe fișiere pe HDFS Prezentare generală a Referinței comenzii HDFS Prezentare generală a Snakebite Instalarea Snakebite Utilizând biblioteca client Snakebite Utilizând clientul CLI

Învățarea modelului de programare MapReduce cu Python

    Prezentare generală a modelului MapReduce Programming Înțelegerea fluxului de date în cadrul MapReduce. Amestecare și sortare a hărților.
Utilizarea utilitarului de streaming Hadoop Înțelegerea modului în care funcționează utilitarul de streaming Hadoop.
  • Demo: Implementarea aplicației WordCount pe Python
  • Utilizarea bibliotecii mrjob Prezentare generală a mrjob
  • Instalarea mrjob
  • Demo: Implementarea algoritmului WordCount utilizând mrjob
  • Înțelegerea modului în care funcționează un job MapReduce scris cu biblioteca mrjob
  • Executarea unei aplicații MapReduce cu mrjob
  • Practic: calcularea salariilor de top folosind mrjob
  • Porcul de învățare cu Python
  • Prezentare generală a Demo Pig: Implementarea algoritmului WordCount în Pig Configurarea și rularea scripturilor Pig și declarațiilor Pig Utilizarea modurilor de execuție Pig Utilizarea modului interactiv Pig Utilizarea modului Pic Batch
  • Înțelegerea conceptelor de bază ale limbii latine porc folosind afirmații

      Încărcare date
    Transformarea datelor
  • Stocarea datelor
  • Extinderea funcționalității lui Pig cu Python UDF-uri Înregistrarea unui fișier UDF Python
  • Demo: Un simplu Python UDF
  • Demo: Manipularea șirurilor folosind Python UDF
  • Practic: Calcularea celor mai recente 10 filme folosind Python UDF
  • Folosind Spark și PySpark
  • Prezentare generală a Spark Demo: Implementarea algoritmului WordCount în PySpark Prezentare generală a PySpark Utilizarea unui Shell interactiv Implementarea aplicațiilor autonome
  • Lucrul cu seturi de date distribuite rezistente (RDD) Crearea RDD-uri dintr-o colecție Python.
  • Crearea RDD-urilor din fișiere
  • Implementarea transformărilor RDD

      Implementarea acțiunilor RDD
    Practic: implementarea unui program text Search pentru titluri de filme cu PySpark
  • Gestionarea fluxului de lucru cu Python
  • Prezentare generală despre Apache Oozie și Luigi Instalarea lui Luigi Înțelegerea conceptelor fluxului de lucru Luigi Sarcini Ținte Parametri
  • Demo: Examinarea unui flux de lucru care implementează algoritmul WordCount
  • Lucrul cu Hadoop Fluxuri de lucru care controlează MapReduce și Pig Jobs folosind fișierele de configurare ale lui Luigi
  • Lucrul cu MapReduce în Luigi
  • Lucrul cu Pig în Luigi
  • Rezumat și Concluzie

    Cerințe

    • Experiență cu programarea Python
    • Familiaritate de bază cu Hadoop
     28 ore

    Numărul de participanți



    Pret per participant

    Mărturii (3)

    Cursuri înrudite

    Categorii înrudite