Schița de curs

Introducere

Înțelegerea datelor mari

Prezentare generală a Spark

Prezentare generală a Python

Prezentare generală a PySpark

  • Distribuirea datelor folosind cadrul Resilient Distributed Datasets
  • Distribuirea calculelor folosind operatorii API Spark

Configurarea Python cu Spark

Configurarea PySpark

Utilizarea instanțelor Amazon Web Services (AWS) EC2 pentru Spark

Configurarea Databricks

Configurarea clusterului AWS EMR

Învățarea elementelor de bază ale programării în Python

  • Începutul lucrului cu Python
  • Utilizarea Jupyter Notebook
  • Utilizarea variabilelor și a tipurilor de date simple
  • Lucrul cu liste
  • Utilizarea instrucțiunilor if
  • Utilizarea intrărilor utilizatorului
  • Lucrul cu bucle while
  • Implementarea funcțiilor
  • Lucrul cu clase
  • Lucrul cu fișiere și excepții
  • Lucrul cu proiecte, date și API-uri

Învățarea elementelor de bază ale DataFrame-ului Spark

  • Începutul lucrului cu DataFrame-uri Spark
  • Implementarea operațiilor de bază cu Spark
  • Utilizarea operațiilor Groupby și Aggregate
  • Lucrul cu marcaje temporale și date

Lucrul la un exercițiu de proiect cu DataFrame Spark

Înțelegerea învățării automate cu MLlib

Lucrul cu MLlib, Spark și Python pentru învățarea automată

Înțelegerea regresiilor

  • Învățarea teoriei regresiei liniare
  • Implementarea unui cod de evaluare a regresiei
  • Lucrul la un exercițiu de regresie liniară
  • Învățarea teoriei regresiei logistice
  • Implementarea unui cod de regresie logistică
  • Lucrul la un exercițiu de regresie logistică

Înțelegerea pădurilor aleatoare și a arborilor de decizie

  • Învățarea teoriei metodelor arborescente
  • Implementarea codurilor pentru arbori de decizie și păduri aleatoare
  • Lucrul la un exercițiu de clasificare cu păduri aleatoare

Lucrul cu gruparea K-means

  • Înțelegerea teoriei grupării K-means
  • Implementarea unui cod de grupare K-means
  • Lucrul la un exercițiu de grupare

Lucrul cu sisteme de recomandare

Implementarea procesării limbajului natural

  • Înțelegerea procesării limbajului natural (NLP)
  • Prezentare generală a instrumentelor NLP
  • Lucrul la un exercițiu NLP

Transmisia în flux cu Spark pe Python

  • Prezentare generală a transmisiei în flux cu Spark
  • Exercițiu de transmisie în flux cu Spark

Observații finale

Cerințe

  • Cunoștințe generale de programare

Public țintă

  • Dezvoltatori
  • Profesioniști IT
  • Oameni de știință ai datelor
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (6)

Cursuri viitoare

Categorii înrudite