Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Introducere în Știința Datelor pentru Analiza Big Data
- Prezentare generală a Științei Datelor
- Prezentare generală a Big Data
- Structuri de date
- Factorii de conducere și complexitățile Big Data
- Ecosistemul Big Data și o nouă abordare a analizei
- Tehnologii cheie în Big Data
- Procesul și problemele de minerit de date
- Minerit de modele de asociere
- Clustering de date
- Detectarea valorilor aberante
- Clasificarea datelor
Introducere în ciclul de viață al analizei datelor
- Descoperire
- Pregătirea datelor
- Planificarea modelului
- Construirea modelului
- Prezentarea/Comunicarea rezultatelor
- Operaționalizare
- Exercițiu: Studiu de caz
De aici înainte, cea mai mare parte a timpului de formare (80%) va fi dedicată exemplelor și exercițiilor în R și tehnologiile conexe de big data.
Începutul lucrului cu R
- Instalarea R și Rstudio
- Caracteristicile limbajului R
- Obiecte în R
- Date în R
- Manipularea datelor
- Probleme de big data
- Exerciții
Începutul lucrului cu Hadoop
- Instalarea Hadoop
- Înțelegerea modurilor Hadoop
- HDFS
- Arhitectura MapReduce
- Prezentare generală a proiectelor legate de Hadoop
- Scrierea de programe în Hadoop MapReduce
- Exerciții
Integrarea R și Hadoop cu RHadoop
- Componentele RHadoop
- Instalarea RHadoop și conectarea cu Hadoop
- Arhitectura RHadoop
- Hadoop streaming cu R
- Rezolvarea problemelor de analiză de date cu RHadoop
- Exerciții
Pre-procesarea și pregătirea datelor
- Pași de pregătire a datelor
- Extragerea de caracteristici
- Curățarea datelor
- Integrarea și transformarea datelor
- Reducerea datelor – eșantionare, selecția subsetului de caracteristici,
- Reducerea dimensionalității
- Discretizare și gruparea
- Exerciții și studiu de caz
Metode de analiză exploratorie a datelor în R
- Statistici descriptive
- Analiză exploratorie a datelor
- Vizualizare – pași preliminari
- Vizualizarea unei singure variabile
- Examinarea mai multor variabile
- Metode statistice de evaluare
- Testarea ipotezelor
- Exerciții și studiu de caz
Vizualizarea datelor
- Vizualizări de bază în R
- Pachete pentru vizualizarea datelor: ggplot2, lattice, plotly, lattice
- Formatarea graficelor în R
- Grafice avansate
- Exerciții
Regresie (Estimarea valorilor viitoare)
- Regresie liniară
- Cazuri de utilizare
- Descrierea modelului
- Diagnosticare
- Probleme cu regresia liniară
- Metode de reducere, regresie ridge, lasso
- Generalizări și neliniaritate
- Regresie spline
- Regresie polinomială locală
- Modele aditive generalizate
- Regresie cu RHadoop
- Exerciții și studiu de caz
Clasificare
- Probleme legate de clasificare
- Reîmprospătarea Bayes
- Naïve Bayes
- Regresie logistică
- Vecinii cei mai apropiați (k-nearest neighbors)
- Algoritmul arborilor de decizie
- Rețele neuronale
- Mașini cu vectori de suport
- Diagnosticarea clasificatorilor
- Compararea metodelor de clasificare
- Algoritmi scalabili de clasificare
- Exerciții și studiu de caz
Evaluarea performanței și selecția modelului
- Părtinire, varianță și complexitatea modelului
- Precizie vs Interpretabilitate
- Evaluarea clasificatorilor
- Măsuri de performanță a modelului/algoritmului
- Metoda hold-out de validare
- Validare încrucișată
- Reglarea algoritmilor de învățare automată cu pachetul caret
- Vizualizarea performanței modelului cu curbe Profit ROC și Lift
Metode de ansamblu
- Bagging
- Păduri aleatoare
- Boosting
- Boosting de gradient
- Exerciții și studiu de caz
Mașini cu vectori de suport pentru clasificare și regresie
- Clasificatori cu margine maximă
- Clasificatori cu vectori de suport
- Mașini cu vectori de suport
- SVM-uri pentru probleme de clasificare
- SVM-uri pentru probleme de regresie
- Exerciții și studiu de caz
Identificarea grupurilor necunoscute într-un set de date
- Selecția caracteristicilor pentru clustering
- Algoritmi reprezentativi: k-means, k-medoids
- Algoritmi ierarhici: metode aglomerative și divizive
- Algoritmi bazate pe probabilități: EM
- Algoritmi bazate pe densitate: DBSCAN, DENCLUE
- Validarea clusterelor
- Concepte avansate de clustering
- Clustering cu RHadoop
- Exerciții și studiu de caz
Descoperirea conexiunilor cu analiza de legături
- Concepte de analiză de legături
- Metrici pentru analiza rețelelor
- Algoritmul Pagerank
- Căutare tematică indusă de hiperlinkuri
- Prezicerea legăturilor
- Exerciții și studiu de caz
Mineritul de modele de asociere
- Modelul de minerit de modele frecvente
- Probleme de scalabilitate în mineritul de modele frecvente
- Algoritmi de forță brută
- Algoritmul Apriori
- Abordarea FP growth
- Evaluarea regulilor candidate
- Aplicații ale regulilor de asociere
- Validare și testare
- Diagnosticare
- Reguli de asociere cu R și Hadoop
- Exerciții și studiu de caz
Construirea motoarelor de recomandare
- Înțelegerea sistemelor de recomandare
- Tehnici de minerit de date utilizate în sistemele de recomandare
- Sisteme de recomandare cu pachetul recommenderlab
- Evaluarea sistemelor de recomandare
- Recomandări cu RHadoop
- Exercițiu: Construirea unui motor de recomandare
Analiza textului
- Pași de analiză a textului
- Colectarea textului brut
- Sac de cuvinte
- Frecvența termenului – Frecvența inversă a documentului
- Determinarea sentimentelor
- Exerciții și studiu de caz
35 Ore
Mărturii (2)
Intensitatea, Materiale de instruire și expertiză, Claritate, Comunicare excelentă cu Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Curs - Data Science for Big Data Analytics
Tradus de catre o masina
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
Curs - Data Science for Big Data Analytics
Tradus de catre o masina