Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Introducere la Science Data pentru Analiza Big Data
- Prezentare generală a Science Data
- Prezentare generală a Big Data
- Structuri de date
- Factorii și complexitățile Big Data
- Ecosistemul Big Data și o abordare nouă a analizei
- Tehnologii cheie în Big Data
- Procesul de data mining și probleme asociate
- Mining al pattern-urilor de asociere
- Clustering al datelor
- Detectarea valorilor abaterea (outliers)
- Clasificarea datelor
Introducere la ciclul de viață al analizei datelor
- Descoperirea
- Pregătirea datelor
- Planificarea modelului
- Construcția modelului
- Prezentarea și comunicarea rezultatelor
- Operationalizarea
- Exercițiu: Studiu de caz
Din acest punct înainte, o mare parte din timpul de instruire (80%) va fi dedicată exemplificărilor și exercițiilor în R și tehnologiile big data asociate.
Introducere la R
- Instalarea R și Rstudio
- Caracteristicile limbajului R
- Obiecte în R
- Date în R
- Manipularea datelor
- Probleme specifice big data
- Exerciții
Introducere la Hadoop
- Instalarea Hadoop
- Înțelegerea modurilor de funcționare ale Hadoop
- HDFS (Hadoop Distributed File System)
- Arhitectura MapReduce
- Prezentarea proiectelor asociate cu Hadoop
- Scrierea programelor în Hadoop MapReduce
- Exerciții
Integrarea R și Hadoop prin RHadoop
- Componentele RHadoop
- Instalarea RHadoop și conectarea cu Hadoop
- Arhitectura RHadoop
- Hadoop streaming cu R
- Soluționarea problemelor de analiză a datelor cu RHadoop
- Exerciții
Pregătirea și procesarea datelor
- Etimile pregătirii datelor
- Extracția caracteristicilor
- Curățarea datelor
- Integrarea și transformarea datelor
- Reducerea datelor – eșantionare, selecție a submulțimilor de caracteristici
- Reducerea dimensiunii
- Discretizarea și binning
- Exerciții și studiu de caz
Metode exploratorii de analiză a datelor în R
- Statistici descriptive
- Analiza exploratorie a datelor
- Vizualizarea – etape preliminare
- Vizualizarea unei singure variabile
- Examinarea mai multor variabile
- Metode statistice de evaluare
- Testarea ipotezelor
- Exerciții și studiu de caz
Vizualizări ale datelor
- Vizualizări de bază în R
- Pachete pentru vizualizarea datelor: ggplot2, lattice, plotly, lattice
- Formatarea graficelor în R
- Grafice avansate
- Exerciții
Regresie (Estimarea valorilor viitoare)
- Regresia liniară
- Cazuri de utilizare
- Descrierea modelului
- Diagnostice
- Probleme specifice regresiei liniare
- Metode de shrinkage, regresia ridge, lasso
- Generalizări și neliniarități
- Spline-uri de regresie
- Regresie polinomială locală
- Modele aditive generalizate
- Regresia cu RHadoop
- Exerciții și studiu de caz
Clasificare
- Probleme legate de clasificare
- Recapitulare bayesiană
- Naive Bayes
- Regresia logistică
- K-vecini cei mai apropieni
- Algoritmul arborilor de decizie
- Rețele neuronale
- Masina de sprijin vectorial (SVM)
- Diagnostice ale clasificatorilor
- Comparația metodelor de clasificare
- Algoritmi scalabili de clasificare
- Exerciții și studiu de caz
Evaluarea performanței modelului și selecția acestuia
- Prejudicii, variabilitate și complexitatea modelului
- Precizie vs interpretabilitate
- Evaluarea clasificatorilor
- Măsuri de performanță a modelului/algoritmului
- Metoda hold-out de validare
- Cross-validation
- Tuning al algoritmilor de învățare automată cu pachetul caret
- Vizualizarea performanței modelului cu Profit ROC și Lift curves
Metode ensemblistice
- Bagging
- Pădurile aleatoare (Random Forests)
- Boosting
- Boosting gradient
- Exerciții și studiu de caz
Masina de sprijin vectorial pentru clasificare și regresie
- Clasificatorii cu margine maximă
- Clasificatorii de susținere (support vector classifiers)
- Masina de sprijin vectorial (SVM)
- SVM pentru probleme de clasificare
- SVM pentru probleme de regresie
- Exerciții și studiu de caz
Identificarea grupurilor necunoscute într-o mulțime de date
- Selectia caracteristicilor pentru clustering
- Algoritmi bazati pe reprezentare: k-means, k-medoids
- Algoritmi ierarhici: metode aglomerative și divisive
- Algoritmi probabilistici: EM (Expectation-Maximization)
- Algoritmi bazati pe densitate: DBSCAN, DENCLUE
- Validarea clusterelor
- Concepte avansate de clustering
- Clustering cu RHadoop
- Exerciții și studiu de caz
Descoperirea conexiunilor prin analiza link-urilor
- Concepte de analiză a legăturilor (link analysis)
- Metrici pentru analizarea rețelelor
- Algoritmul Pagerank
- Căutarea tematică inducătoare de link-uri (Hyperlink-Induced Topic Search)
- Predicția legăturilor
- Exerciții și studiu de caz
Mining al pattern-urilor de asociere
- Modelul de mining al pattern-urilor frecvente
- Probleme de scalabilitate în mining-ul pattern-urilor frecvente
- Algoritmi brut-force
- Algoritmul Apriori
- Aproacherea FP growth
- Evaluarea regulilor candidate
- Aplicații ale regulelor de asociere
- Validare și testare
- Diagnostice
- Reguli de asociere cu R și Hadoop
- Exerciții și studiu de caz
Construirea motorurilor de recomandare
- Înțelegerea sistemelor de recomandare
- Tehnici de data mining utilizate în sistemele de recomandare
- Sisteme de recomandare cu pachetul recommenderlab
- Evaluarea sistemelor de recomandare
- Recomandări cu RHadoop
- Exercițiu: Construirea motorului de recomandare
Analiza textelor
- Etimile analizei textelor
- Colectarea textelor raw
- Bag of words (sac de cuvinte)
- Frecvența termenilor – Inverse Document Frequency (TF-IDF)
- Determinarea sentimentului
- Exerciții și studiu de caz
35 ore
Mărturii (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Curs - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.