Schița de curs

Introducere în știința datelor pentru analiza unui volum mare de date

  • Panorama asupra științei datelor
  • Panorama asupra unui volum mare de date (Big Data)
  • Structuri de date
  • Motivațiile și complexitățile unui volum mare de date
  • Ecosistemul Big Data și o nouă abordare a analiticilor
  • Tehnologiile cheie în Big Data
  • Procesul și problemele minării datelor
    • Minarea modelului de asociere
    • Agruparea datelor
    • Detectarea punctelor abatuse (outliers)
    • Clasificarea datelor

Introducere în ciclul de viață al analiticilor de date

  • Descoperire
  • Pregătirea datelor
  • Planificarea modelului
  • Construirea modelului
  • Prezentarea/Comunicarea rezultatelor
  • Operationalizare
  • Exercițiu: Studiu de caz

Din acest punct înainte, o mare parte din timpul de instruire (80%) va fi dedicată exemplificării și exercițiilor în R și tehnologiile asociate cu Big Data.

Introducere la R

  • Instalarea R și Rstudio
  • S caracteristicile limbajului R
  • Obiecte în R
  • Datele în R
  • Manipularea datelor
  • Ișuirea legată de Big Data
  • Exerciții

Introducere la Hadoop

  • Instalarea Hadoop
  • Înțelegerea modurilor Hadoop
  • HDFS
  • Arhitectura MapReduce
  • Panorama asupra proiectelor asociate cu Hadoop
  • Scrierea programelor în Hadoop MapReduce
  • Exerciții

Integrarea R și Hadoop cu RHadoop

  • Componentele RHadoop
  • Instalarea RHadoop și conectarea la Hadoop
  • Arhitectura RHadoop
  • Transmiterea streaming cu R în Hadoop
  • Soluționarea problemelor de analitică a datelor cu RHadoop
  • Exerciții

Pregătirea și prepararea datelor

  • Pasii pregătirii datelor
  • Extracția caracteristicilor
  • Purificarea datelor (data cleaning)
  • Integrarea și transformarea datelor
  • Reducerea datelor – eșantionare, selecție de submulțimi de caracteristici,
  • Reducerea dimensionalității
  • Discretizarea și gruparea (binning)
  • Exerciții și studiu de caz

Metode exploratorii de analiză a datelor în R

  • Statistica descriptivă
  • Analiza exploratoare a datelor
  • Vizualizarea – pași preliminari
  • Vizualizarea unei singure variabile
  • Examinarea mai multor variabile
  • Metode statistice de evaluare
  • Testarea ipotezelor
  • Exerciții și studiu de caz

Vizualizări ale datelor

  • Vizualizări de bază în R
  • Pachete pentru vizualizarea datelor: ggplot2, lattice, plotly, lattice
  • Formatarea graficelor în R
  • Grafice avansate
  • Exerciții

Regresia (estimarea valorilor viitoare)

  • Regresia liniară
  • Cazuri de utilizare
  • Descrierea modelului
  • Diagnostics
  • Probleme cu regresia liniară
  • Metode de redimensionare, regresia ridge, lasso
  • Generalizări și neliniarități
  • Splines de regresie
  • Regresie polinomială locală
  • Regresia cu RHadoop
  • Exerciții și studiu de caz

Clasificarea datelor

  • Problemele legate de clasificare
  • Remarcări bayesiene
  • Naive Bayes
  • Regresia logistică
  • K-vecini cei mai apropiati (KNN)
  • Algoritmul arborelor de decizie
  • Rețele neurale
  • Masini de suport vectorial (SVMs)
  • Diagnostics al clasificatorilor
  • Compararea metodelor de clasificare
  • Algoritmi scalabili de clasificare
  • Exerciții și studiu de caz

Evaluarea performanței și selecția modelelor

  • Bias, varianta și complexitatea modelului
  • Precizie vs. interpretabilitate
  • Evaluarea clasificatorilor
  • Măsurile de performanță a modelelor/algoritmilor
  • Metoda hold-out de validare
  • Cross-validation
  • Ajustarea algoritmilor de învățare automată cu pachetul caret
  • Vizualizarea performanței modelelor cu curbele Profit ROC și Lift

Metode de grupare (ensemble methods)

  • Bagging
  • Pădurile aleatoare (Random Forests)
  • Boosting
  • Gradient boosting
  • Exerciții și studiu de caz

Masini de suport vectorial pentru clasificare și regresie

  • Clasificatorii cu margină maximală
    • Clasificatorii de susținere (support vector classifiers)
    • Masini de suport vectorial (SVMs)
    • SVM pentru probleme de clasificare
    • SVM pentru probleme de regresie
  • Exerciții și studiu de caz

Identificarea grupărilor necunoscute într-un set de date

  • Selectia caracteristicilor pentru grupare (clustering)
  • Algoritmi cu reprezentanți: k-means, k-medoids
  • Algoritmi ierarhici: metode aglomerative și divisive
  • Algoritmi probabilistici de bază: EM
  • Algoritmi bazati pe densitate: DBSCAN, DENCLUE
  • Validarea grupărilor (cluster validation)
  • Concepte avansate de grupare
  • Gruparea datelor cu RHadoop
  • Exerciții și studiu de caz

Descoperirea conexiunilor prin analiza legăturilor (link analysis)

  • Concepte de analiză a legăturilor
  • Metrici pentru analiza rețelelor
  • Algoritmul PageRank
  • Căutarea tematică inducătoare de hiperlinkuri (HITS)
  • Predicția legăturilor (Link Prediction)
  • Exerciții și studiu de caz

Minarea modelului de asociere (association pattern mining)

  • Modelul minării modelului de frecvență
  • Ișuiri de scalabilitate în minarea modelului de frecvență
  • Algoritmi forța brută (brute force algorithms)
  • Algoritmul Apriori
  • Aproacherea FP growth
  • Evaluarea regulilor candidat
  • Aplicațiile regulilor de asociere
  • Validare și testare
  • Diagnostics
  • Reguli de asociere cu R și Hadoop
  • Exerciții și studiu de caz

Construirea motorului de recomandări (recommendation engines)

  • Înțelegerea sistemelor de recomandare
  • Tehnicile minării datelor utilizate în sistemele de recomandare
  • Sisteme de recomandare cu pachetul recommenderlab
  • Evaluarea sistemelor de recomandare
  • Recomandări cu RHadoop
  • Exercițiu: Construirea unui motor de recomandări

Analiza textului (text analysis)

  • Pasii analizei textului
  • Colectarea textelor crude
  • Felul de cuvinte (bag of words)
  • Frecvența termenului – Inversa frecvenței documentului (Term Frequency - Inverse Document Frequency, TF-IDF)
  • Determinarea sentimentelor
  • Exerciții și studiu de caz
 35 ore

Numărul de participanți


Pret per participant

Mărturii (2)

Cursuri viitoare

Categorii înrudite