Schița de curs

Introducere în Data Science for Big Data Analytics

    Data Science Prezentare generală Big Data Prezentare generală Structuri de date Motoare și complexități ale ecosistemului Big Data Big Data și o nouă abordare a analizei Tehnologii cheie în procesele și problemele Big Data Mining Modelul de asociere Mining Data Clustering Outlier Detection Clasificarea datelor

Introducere în ciclul de viață Data Analytics

    Descoperire Pregătirea datelor Planificarea modelului Construirea modelului Prezentarea/Communication a rezultatelor Exercițiu de operaționalizare: Studiu de caz

Din acest punct, cea mai mare parte a timpului de instruire (80%) va fi alocat pe exemple și exerciții în R și tehnologia Big Data aferentă.

Începeți cu R

    Instalarea caracteristicilor R și Rstudio ale limbajului R Obiecte în R Date în R Manipularea datelor Probleme de date mari Exerciții

Noțiuni introductive cu Hadoop

    Instalarea Hadoop Înțelegerea modurilor Hadoop Arhitectura HDFS MapReduce Hadoop prezentare generală a proiectelor înrudite Scrierea programelor în Hadoop Exerciții MapReduce

Integrarea R și Hadoop cu RHadoop

    Componentele lui RHadoop Instalarea RHadoop și conectarea cu Hadoop Arhitectura RHadoop Hadoop streaming cu R Rezolvarea problemelor de analiză a datelor cu RHadoop Exerciții

Preprocesarea și pregătirea datelor

    Etape de pregătire a datelor Extragerea caracteristicilor Curățarea datelor Integrarea și transformarea datelor Reducerea datelor – eșantionare, selectarea subsetului de caracteristici, Reducerea dimensionalității Discretizare și împărțire Exerciții și studiu de caz

Metode exploratorii de analiză a datelor în R

    Statistică descriptivă Analiza exploratorie a datelor Vizualizarea – pași preliminari Vizualizarea unei singure variabile Examinarea mai multor variabile Metode statistice de evaluare Testarea ipotezelor Exerciții și studiu de caz

Data Visualizations

    Vizualizări de bază în R Pachete pentru vizualizarea datelor ggplot2, lattice, plotly, lattice Formatarea diagramelor în R Grafice avansate Exerciții

Regresie (Estimarea valorilor viitoare)

    Regresia liniară Cazuri de utilizare Descrierea modelului Diagnosticare Probleme cu regresia liniară Metode de contracție, regresia crestei, laso Generalizări și neliniaritate Spline de regresie Regresie polinomială locală Modele aditive generalizate Regresia cu RHadoop Exerciții și studiu de caz

Clasificare

    Probleme legate de clasificare Reîmprospătare bayesiană Naïve Bayes Regresie logistică K-vecini cei mai apropiați Algoritmul arborilor de decizie Rețele neuronale Mașini vectori suport Diagnosticarea clasificatoarelor Comparația metodelor de clasificare Scalaalgoritmi de clasificare bili Exerciții și studiu de caz

Evaluarea performanței și selecția modelului

    Prejudecăți, variații și complexitate a modelului Acuratețe vs interpretabilitate Evaluarea clasificatorilor Măsuri ale performanței modelului/algoritmului Metodă de validare Hold-out Validare încrucișată Ajustarea algoritmilor de învățare automată cu pachetul de indicatori Vizualizarea performanței modelului cu Profit ROC și curbele Lift

Metode de ansamblu

    Exerciții de creștere a gradientului și studiu de caz

Sprijină mașini vectoriale pentru clasificare și regresie

    Clasificatoare de marjă maximă Clasificatoare vectoriale suportă Mașini vectoriale suport SVM-uri pentru probleme de clasificare SVM-uri pentru probleme de regresie
Exerciții și studiu de caz
  • Identificarea grupărilor necunoscute într-un set de date
  • Selectarea caracteristicilor pentru Clustering Algoritmi reprezentativi: k-medii, k-medoizi Algoritmi ierarhici: metode aglomerative si divizibile Algoritmi de baza probabilisti: EM Algoritmi bazati pe densitate: DBSCAN, DENCLUE Validare cluster Concepte avansate de clustering Clustering cu exercitii RHadoop

      Descoperirea conexiunilor cu Link Analysis

    Concepte de analiză a legăturilor Metrici pentru analiza rețelelor Algoritmul Pagerank Subiect indus de hiperlink Search Exerciții de predicție a legăturilor și studiu de caz

      Asociația Pattern Mining

    Frequent Pattern Mining Model Scalaprobleme de abilitate în exploatarea frecventă de modele Algoritmi de forță brută Algoritmul apriori Abordarea de creștere FP Evaluarea regulilor candidatului Aplicații ale regulilor de asociere Validarea și testarea diagnosticelor Reguli de asociere cu R și Hadoop Exerciții și studiu de caz

      Construirea motoarelor de recomandare

    Înțelegerea sistemelor de recomandare Tehnicile de extragere a datelor utilizate în sistemele de recomandare Sisteme de recomandare cu pachetul recommenderlab Evaluarea sistemelor de recomandare Recomandări cu RHadoop Exercițiu: Construirea motorului de recomandare

      Analiza textului

    Pașii analizei textului Colectarea textului brut Pungă de cuvinte Frecvența termenilor – Frecvența inversă a documentului Determinarea sentimentelor Exerciții și studiu de caz

     35 ore

    Numărul de participanți



    Pret per participant

    Mărturii (2)

    Cursuri înrudite

    Unified Batch and Stream Processing with Apache Beam

    14 ore

    Categorii înrudite