Schița de curs

Introducere în Știința Datelor pentru Analiza Big Data

  • Prezentare generală a Științei Datelor
  • Prezentare generală a Big Data
  • Structuri de date
  • Factorii de conducere și complexitățile Big Data
  • Ecosistemul Big Data și o nouă abordare a analizei
  • Tehnologii cheie în Big Data
  • Procesul și problemele de minerit de date
    • Minerit de modele de asociere
    • Clustering de date
    • Detectarea valorilor aberante
    • Clasificarea datelor

Introducere în ciclul de viață al analizei datelor

  • Descoperire
  • Pregătirea datelor
  • Planificarea modelului
  • Construirea modelului
  • Prezentarea/Comunicarea rezultatelor
  • Operaționalizare
  • Exercițiu: Studiu de caz

De aici înainte, cea mai mare parte a timpului de formare (80%) va fi dedicată exemplelor și exercițiilor în R și tehnologiile conexe de big data.

Începutul lucrului cu R

  • Instalarea R și Rstudio
  • Caracteristicile limbajului R
  • Obiecte în R
  • Date în R
  • Manipularea datelor
  • Probleme de big data
  • Exerciții

Începutul lucrului cu Hadoop

  • Instalarea Hadoop
  • Înțelegerea modurilor Hadoop
  • HDFS
  • Arhitectura MapReduce
  • Prezentare generală a proiectelor legate de Hadoop
  • Scrierea de programe în Hadoop MapReduce
  • Exerciții

Integrarea R și Hadoop cu RHadoop

  • Componentele RHadoop
  • Instalarea RHadoop și conectarea cu Hadoop
  • Arhitectura RHadoop
  • Hadoop streaming cu R
  • Rezolvarea problemelor de analiză de date cu RHadoop
  • Exerciții

Pre-procesarea și pregătirea datelor

  • Pași de pregătire a datelor
  • Extragerea de caracteristici
  • Curățarea datelor
  • Integrarea și transformarea datelor
  • Reducerea datelor – eșantionare, selecția subsetului de caracteristici,
  • Reducerea dimensionalității
  • Discretizare și gruparea
  • Exerciții și studiu de caz

Metode de analiză exploratorie a datelor în R

  • Statistici descriptive
  • Analiză exploratorie a datelor
  • Vizualizare – pași preliminari
  • Vizualizarea unei singure variabile
  • Examinarea mai multor variabile
  • Metode statistice de evaluare
  • Testarea ipotezelor
  • Exerciții și studiu de caz

Vizualizarea datelor

  • Vizualizări de bază în R
  • Pachete pentru vizualizarea datelor: ggplot2, lattice, plotly, lattice
  • Formatarea graficelor în R
  • Grafice avansate
  • Exerciții

Regresie (Estimarea valorilor viitoare)

  • Regresie liniară
  • Cazuri de utilizare
  • Descrierea modelului
  • Diagnosticare
  • Probleme cu regresia liniară
  • Metode de reducere, regresie ridge, lasso
  • Generalizări și neliniaritate
  • Regresie spline
  • Regresie polinomială locală
  • Modele aditive generalizate
  • Regresie cu RHadoop
  • Exerciții și studiu de caz

Clasificare

  • Probleme legate de clasificare
  • Reîmprospătarea Bayes
  • Naïve Bayes
  • Regresie logistică
  • Vecinii cei mai apropiați (k-nearest neighbors)
  • Algoritmul arborilor de decizie
  • Rețele neuronale
  • Mașini cu vectori de suport
  • Diagnosticarea clasificatorilor
  • Compararea metodelor de clasificare
  • Algoritmi scalabili de clasificare
  • Exerciții și studiu de caz

Evaluarea performanței și selecția modelului

  • Părtinire, varianță și complexitatea modelului
  • Precizie vs Interpretabilitate
  • Evaluarea clasificatorilor
  • Măsuri de performanță a modelului/algoritmului
  • Metoda hold-out de validare
  • Validare încrucișată
  • Reglarea algoritmilor de învățare automată cu pachetul caret
  • Vizualizarea performanței modelului cu curbe Profit ROC și Lift

Metode de ansamblu

  • Bagging
  • Păduri aleatoare
  • Boosting
  • Boosting de gradient
  • Exerciții și studiu de caz

Mașini cu vectori de suport pentru clasificare și regresie

  • Clasificatori cu margine maximă
    • Clasificatori cu vectori de suport
    • Mașini cu vectori de suport
    • SVM-uri pentru probleme de clasificare
    • SVM-uri pentru probleme de regresie
  • Exerciții și studiu de caz

Identificarea grupurilor necunoscute într-un set de date

  • Selecția caracteristicilor pentru clustering
  • Algoritmi reprezentativi: k-means, k-medoids
  • Algoritmi ierarhici: metode aglomerative și divizive
  • Algoritmi bazate pe probabilități: EM
  • Algoritmi bazate pe densitate: DBSCAN, DENCLUE
  • Validarea clusterelor
  • Concepte avansate de clustering
  • Clustering cu RHadoop
  • Exerciții și studiu de caz

Descoperirea conexiunilor cu analiza de legături

  • Concepte de analiză de legături
  • Metrici pentru analiza rețelelor
  • Algoritmul Pagerank
  • Căutare tematică indusă de hiperlinkuri
  • Prezicerea legăturilor
  • Exerciții și studiu de caz

Mineritul de modele de asociere

  • Modelul de minerit de modele frecvente
  • Probleme de scalabilitate în mineritul de modele frecvente
  • Algoritmi de forță brută
  • Algoritmul Apriori
  • Abordarea FP growth
  • Evaluarea regulilor candidate
  • Aplicații ale regulilor de asociere
  • Validare și testare
  • Diagnosticare
  • Reguli de asociere cu R și Hadoop
  • Exerciții și studiu de caz

Construirea motoarelor de recomandare

  • Înțelegerea sistemelor de recomandare
  • Tehnici de minerit de date utilizate în sistemele de recomandare
  • Sisteme de recomandare cu pachetul recommenderlab
  • Evaluarea sistemelor de recomandare
  • Recomandări cu RHadoop
  • Exercițiu: Construirea unui motor de recomandare

Analiza textului

  • Pași de analiză a textului
  • Colectarea textului brut
  • Sac de cuvinte
  • Frecvența termenului – Frecvența inversă a documentului
  • Determinarea sentimentelor
  • Exerciții și studiu de caz
 35 Ore

Numărul de participanți


Pret per participant

Mărturii (2)

Cursuri viitoare

Categorii înrudite