Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Introducere în știința datelor pentru analiza unui volum mare de date
- Panorama asupra științei datelor
- Panorama asupra unui volum mare de date (Big Data)
- Structuri de date
- Motivațiile și complexitățile unui volum mare de date
- Ecosistemul Big Data și o nouă abordare a analiticilor
- Tehnologiile cheie în Big Data
- Procesul și problemele minării datelor
- Minarea modelului de asociere
- Agruparea datelor
- Detectarea punctelor abatuse (outliers)
- Clasificarea datelor
Introducere în ciclul de viață al analiticilor de date
- Descoperire
- Pregătirea datelor
- Planificarea modelului
- Construirea modelului
- Prezentarea/Comunicarea rezultatelor
- Operationalizare
- Exercițiu: Studiu de caz
Din acest punct înainte, o mare parte din timpul de instruire (80%) va fi dedicată exemplificării și exercițiilor în R și tehnologiile asociate cu Big Data.
Introducere la R
- Instalarea R și Rstudio
- S caracteristicile limbajului R
- Obiecte în R
- Datele în R
- Manipularea datelor
- Ișuirea legată de Big Data
- Exerciții
Introducere la Hadoop
- Instalarea Hadoop
- Înțelegerea modurilor Hadoop
- HDFS
- Arhitectura MapReduce
- Panorama asupra proiectelor asociate cu Hadoop
- Scrierea programelor în Hadoop MapReduce
- Exerciții
Integrarea R și Hadoop cu RHadoop
- Componentele RHadoop
- Instalarea RHadoop și conectarea la Hadoop
- Arhitectura RHadoop
- Transmiterea streaming cu R în Hadoop
- Soluționarea problemelor de analitică a datelor cu RHadoop
- Exerciții
Pregătirea și prepararea datelor
- Pasii pregătirii datelor
- Extracția caracteristicilor
- Purificarea datelor (data cleaning)
- Integrarea și transformarea datelor
- Reducerea datelor – eșantionare, selecție de submulțimi de caracteristici,
- Reducerea dimensionalității
- Discretizarea și gruparea (binning)
- Exerciții și studiu de caz
Metode exploratorii de analiză a datelor în R
- Statistica descriptivă
- Analiza exploratoare a datelor
- Vizualizarea – pași preliminari
- Vizualizarea unei singure variabile
- Examinarea mai multor variabile
- Metode statistice de evaluare
- Testarea ipotezelor
- Exerciții și studiu de caz
Vizualizări ale datelor
- Vizualizări de bază în R
- Pachete pentru vizualizarea datelor: ggplot2, lattice, plotly, lattice
- Formatarea graficelor în R
- Grafice avansate
- Exerciții
Regresia (estimarea valorilor viitoare)
- Regresia liniară
- Cazuri de utilizare
- Descrierea modelului
- Diagnostics
- Probleme cu regresia liniară
- Metode de redimensionare, regresia ridge, lasso
- Generalizări și neliniarități
- Splines de regresie
- Regresie polinomială locală
- Regresia cu RHadoop
- Exerciții și studiu de caz
Clasificarea datelor
- Problemele legate de clasificare
- Remarcări bayesiene
- Naive Bayes
- Regresia logistică
- K-vecini cei mai apropiati (KNN)
- Algoritmul arborelor de decizie
- Rețele neurale
- Masini de suport vectorial (SVMs)
- Diagnostics al clasificatorilor
- Compararea metodelor de clasificare
- Algoritmi scalabili de clasificare
- Exerciții și studiu de caz
Evaluarea performanței și selecția modelelor
- Bias, varianta și complexitatea modelului
- Precizie vs. interpretabilitate
- Evaluarea clasificatorilor
- Măsurile de performanță a modelelor/algoritmilor
- Metoda hold-out de validare
- Cross-validation
- Ajustarea algoritmilor de învățare automată cu pachetul caret
- Vizualizarea performanței modelelor cu curbele Profit ROC și Lift
Metode de grupare (ensemble methods)
- Bagging
- Pădurile aleatoare (Random Forests)
- Boosting
- Gradient boosting
- Exerciții și studiu de caz
Masini de suport vectorial pentru clasificare și regresie
- Clasificatorii cu margină maximală
- Clasificatorii de susținere (support vector classifiers)
- Masini de suport vectorial (SVMs)
- SVM pentru probleme de clasificare
- SVM pentru probleme de regresie
- Exerciții și studiu de caz
Identificarea grupărilor necunoscute într-un set de date
- Selectia caracteristicilor pentru grupare (clustering)
- Algoritmi cu reprezentanți: k-means, k-medoids
- Algoritmi ierarhici: metode aglomerative și divisive
- Algoritmi probabilistici de bază: EM
- Algoritmi bazati pe densitate: DBSCAN, DENCLUE
- Validarea grupărilor (cluster validation)
- Concepte avansate de grupare
- Gruparea datelor cu RHadoop
- Exerciții și studiu de caz
Descoperirea conexiunilor prin analiza legăturilor (link analysis)
- Concepte de analiză a legăturilor
- Metrici pentru analiza rețelelor
- Algoritmul PageRank
- Căutarea tematică inducătoare de hiperlinkuri (HITS)
- Predicția legăturilor (Link Prediction)
- Exerciții și studiu de caz
Minarea modelului de asociere (association pattern mining)
- Modelul minării modelului de frecvență
- Ișuiri de scalabilitate în minarea modelului de frecvență
- Algoritmi forța brută (brute force algorithms)
- Algoritmul Apriori
- Aproacherea FP growth
- Evaluarea regulilor candidat
- Aplicațiile regulilor de asociere
- Validare și testare
- Diagnostics
- Reguli de asociere cu R și Hadoop
- Exerciții și studiu de caz
Construirea motorului de recomandări (recommendation engines)
- Înțelegerea sistemelor de recomandare
- Tehnicile minării datelor utilizate în sistemele de recomandare
- Sisteme de recomandare cu pachetul recommenderlab
- Evaluarea sistemelor de recomandare
- Recomandări cu RHadoop
- Exercițiu: Construirea unui motor de recomandări
Analiza textului (text analysis)
- Pasii analizei textului
- Colectarea textelor crude
- Felul de cuvinte (bag of words)
- Frecvența termenului – Inversa frecvenței documentului (Term Frequency - Inverse Document Frequency, TF-IDF)
- Determinarea sentimentelor
- Exerciții și studiu de caz
35 ore
Mărturii (2)
Intensitate, Materiale și experiență de antrenament, Claritate, Comunicare Excellentă cu Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Curs - Data Science for Big Data Analytics
Tradus de catre o masina
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
Curs - Data Science for Big Data Analytics
Tradus de catre o masina