Schița de curs

Introducere la Science Data pentru Analiza Big Data

  • Prezentare generală a Science Data
  • Prezentare generală a Big Data
  • Structuri de date
  • Factorii și complexitățile Big Data
  • Ecosistemul Big Data și o abordare nouă a analizei
  • Tehnologii cheie în Big Data
  • Procesul de data mining și probleme asociate
    • Mining al pattern-urilor de asociere
    • Clustering al datelor
    • Detectarea valorilor abaterea (outliers)
    • Clasificarea datelor

Introducere la ciclul de viață al analizei datelor

  • Descoperirea
  • Pregătirea datelor
  • Planificarea modelului
  • Construcția modelului
  • Prezentarea și comunicarea rezultatelor
  • Operationalizarea
  • Exercițiu: Studiu de caz

Din acest punct înainte, o mare parte din timpul de instruire (80%) va fi dedicată exemplificărilor și exercițiilor în R și tehnologiile big data asociate.

Introducere la R

  • Instalarea R și Rstudio
  • Caracteristicile limbajului R
  • Obiecte în R
  • Date în R
  • Manipularea datelor
  • Probleme specifice big data
  • Exerciții

Introducere la Hadoop

  • Instalarea Hadoop
  • Înțelegerea modurilor de funcționare ale Hadoop
  • HDFS (Hadoop Distributed File System)
  • Arhitectura MapReduce
  • Prezentarea proiectelor asociate cu Hadoop
  • Scrierea programelor în Hadoop MapReduce
  • Exerciții

Integrarea R și Hadoop prin RHadoop

  • Componentele RHadoop
  • Instalarea RHadoop și conectarea cu Hadoop
  • Arhitectura RHadoop
  • Hadoop streaming cu R
  • Soluționarea problemelor de analiză a datelor cu RHadoop
  • Exerciții

Pregătirea și procesarea datelor

  • Etimile pregătirii datelor
  • Extracția caracteristicilor
  • Curățarea datelor
  • Integrarea și transformarea datelor
  • Reducerea datelor – eșantionare, selecție a submulțimilor de caracteristici
  • Reducerea dimensiunii
  • Discretizarea și binning
  • Exerciții și studiu de caz

Metode exploratorii de analiză a datelor în R

  • Statistici descriptive
  • Analiza exploratorie a datelor
  • Vizualizarea – etape preliminare
  • Vizualizarea unei singure variabile
  • Examinarea mai multor variabile
  • Metode statistice de evaluare
  • Testarea ipotezelor
  • Exerciții și studiu de caz

Vizualizări ale datelor

  • Vizualizări de bază în R
  • Pachete pentru vizualizarea datelor: ggplot2, lattice, plotly, lattice
  • Formatarea graficelor în R
  • Grafice avansate
  • Exerciții

Regresie (Estimarea valorilor viitoare)

  • Regresia liniară
  • Cazuri de utilizare
  • Descrierea modelului
  • Diagnostice
  • Probleme specifice regresiei liniare
  • Metode de shrinkage, regresia ridge, lasso
  • Generalizări și neliniarități
  • Spline-uri de regresie
  • Regresie polinomială locală
  • Modele aditive generalizate
  • Regresia cu RHadoop
  • Exerciții și studiu de caz

Clasificare

  • Probleme legate de clasificare
  • Recapitulare bayesiană
  • Naive Bayes
  • Regresia logistică
  • K-vecini cei mai apropieni
  • Algoritmul arborilor de decizie
  • Rețele neuronale
  • Masina de sprijin vectorial (SVM)
  • Diagnostice ale clasificatorilor
  • Comparația metodelor de clasificare
  • Algoritmi scalabili de clasificare
  • Exerciții și studiu de caz

Evaluarea performanței modelului și selecția acestuia

  • Prejudicii, variabilitate și complexitatea modelului
  • Precizie vs interpretabilitate
  • Evaluarea clasificatorilor
  • Măsuri de performanță a modelului/algoritmului
  • Metoda hold-out de validare
  • Cross-validation
  • Tuning al algoritmilor de învățare automată cu pachetul caret
  • Vizualizarea performanței modelului cu Profit ROC și Lift curves

Metode ensemblistice

  • Bagging
  • Pădurile aleatoare (Random Forests)
  • Boosting
  • Boosting gradient
  • Exerciții și studiu de caz

Masina de sprijin vectorial pentru clasificare și regresie

  • Clasificatorii cu margine maximă
    • Clasificatorii de susținere (support vector classifiers)
    • Masina de sprijin vectorial (SVM)
    • SVM pentru probleme de clasificare
    • SVM pentru probleme de regresie
  • Exerciții și studiu de caz

Identificarea grupurilor necunoscute într-o mulțime de date

  • Selectia caracteristicilor pentru clustering
  • Algoritmi bazati pe reprezentare: k-means, k-medoids
  • Algoritmi ierarhici: metode aglomerative și divisive
  • Algoritmi probabilistici: EM (Expectation-Maximization)
  • Algoritmi bazati pe densitate: DBSCAN, DENCLUE
  • Validarea clusterelor
  • Concepte avansate de clustering
  • Clustering cu RHadoop
  • Exerciții și studiu de caz

Descoperirea conexiunilor prin analiza link-urilor

  • Concepte de analiză a legăturilor (link analysis)
  • Metrici pentru analizarea rețelelor
  • Algoritmul Pagerank
  • Căutarea tematică inducătoare de link-uri (Hyperlink-Induced Topic Search)
  • Predicția legăturilor
  • Exerciții și studiu de caz

Mining al pattern-urilor de asociere

  • Modelul de mining al pattern-urilor frecvente
  • Probleme de scalabilitate în mining-ul pattern-urilor frecvente
  • Algoritmi brut-force
  • Algoritmul Apriori
  • Aproacherea FP growth
  • Evaluarea regulilor candidate
  • Aplicații ale regulelor de asociere
  • Validare și testare
  • Diagnostice
  • Reguli de asociere cu R și Hadoop
  • Exerciții și studiu de caz

Construirea motorurilor de recomandare

  • Înțelegerea sistemelor de recomandare
  • Tehnici de data mining utilizate în sistemele de recomandare
  • Sisteme de recomandare cu pachetul recommenderlab
  • Evaluarea sistemelor de recomandare
  • Recomandări cu RHadoop
  • Exercițiu: Construirea motorului de recomandare

Analiza textelor

  • Etimile analizei textelor
  • Colectarea textelor raw
  • Bag of words (sac de cuvinte)
  • Frecvența termenilor – Inverse Document Frequency (TF-IDF)
  • Determinarea sentimentului
  • Exerciții și studiu de caz
 35 ore

Numărul de participanți


Pret per participant

Mărturii (2)

Cursuri viitoare

Categorii înrudite