Schița de curs

Introducere

Înțelegerea Big Data

Prezentare generală a Spark

Prezentare generală a Python

Prezentare generală a PySpark

  • Distribuirea datelor utilizând cadrul de seturi de date distribuite rezistente
  • Distribuirea calculelor utilizând operatori API Spark

Configurarea Python cu Spark

Configurare PySpark

Folosind Amazon Web Services (AWS) Instanțele EC2 pentru Spark

Configurare Databricks

Configurarea clusterului AWS EMR

Învățarea elementelor de bază ale Python Programming

  • Noțiuni introductive cu Python
  • Folosind Notebook-ul Jupyter
  • Utilizarea variabilelor și a tipurilor de date simple
  • Lucrul cu liste
  • Folosind declarații if
  • Utilizarea intrărilor utilizatorului
  • Lucrul cu buclele while
  • Funcții de implementare
  • Lucrul cu clasele
  • Lucrul cu fișiere și excepții
  • Lucrul cu proiecte, date și API-uri

Învățarea elementelor de bază ale Spark DataFrame

  • Noțiuni introductive cu Spark DataFrames
  • Implementarea operațiunilor de bază cu Spark
  • Folosind Operațiuni Groupby și Aggregate
  • Lucrul cu marcajele de timp și datele

Lucrul la un exercițiu de proiect Spark DataFrame

Înțelegerea Machine Learning cu MLlib

Lucrul cu MLlib, Spark și Python pentru Machine Learning

Înțelegerea regresiilor

  • Învățarea teoriei regresiei liniare
  • Implementarea unui cod de evaluare a regresiei
  • Lucrul la un exemplu de exercițiu de regresie liniară
  • Învățarea teoriei regresiei logistice
  • Implementarea unui cod de regresie logistică
  • Lucrul la un exemplu de exercițiu de regresie logistică

Înțelegerea Random Forest-urilor și a arborilor de decizie

  • Teoria metodelor arborelui de învățare
  • Arborele decizional de implementare și codurile Random Forest.
  • Lucrul la un eșantion Random Forest Exercițiu de clasificare

Lucrul cu K-means Clustering

  • Înțelegerea K-means Clustering Theory
  • Implementarea unui cod de grupare K-means
  • Lucrul la un exemplu de exercițiu de grupare

Lucrul cu sistemele de recomandare

Implementarea procesării limbajului natural

  • Înțelegerea Natural Language Processing (NLP)
  • Prezentare generală a instrumentelor NLP
  • Lucrul la un exemplu de exercițiu NLP

Streaming cu Spark activat Python

  • Prezentare generală Transmiterea în flux cu Spark
  • Exemplu Spark Streaming Exercițiu

Observații de încheiere

Cerințe

  • Cunoștințe generale de programare

Audiență

  • Dezvoltatorii
  • Profesioniști IT
  • Cercetători de date
  21 ore
 

Numărul de participanți


Dată început

Dată sfârșit


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Mărturii (5)

Cursuri înrudite

Categorii înrudite