Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Schița de curs
Introducere în Data Science for Big Data Analytics
- Data Science Prezentare generală Big Data Prezentare generală Structuri de date Motoare și complexități ale ecosistemului Big Data Big Data și o nouă abordare a analizei Tehnologii cheie în procesele și problemele Big Data Mining Modelul de asociere Mining Data Clustering Outlier Detection Clasificarea datelor
Introducere în ciclul de viață Data Analytics
- Descoperire Pregătirea datelor Planificarea modelului Construirea modelului Prezentarea/Communication a rezultatelor Exercițiu de operaționalizare: Studiu de caz
Din acest punct, cea mai mare parte a timpului de instruire (80%) va fi alocat pe exemple și exerciții în R și tehnologia Big Data aferentă.
Începeți cu R
- Instalarea caracteristicilor R și Rstudio ale limbajului R Obiecte în R Date în R Manipularea datelor Probleme de date mari Exerciții
Noțiuni introductive cu Hadoop
- Instalarea Hadoop Înțelegerea modurilor Hadoop Arhitectura HDFS MapReduce Hadoop prezentare generală a proiectelor înrudite Scrierea programelor în Hadoop Exerciții MapReduce
Integrarea R și Hadoop cu RHadoop
- Componentele lui RHadoop Instalarea RHadoop și conectarea cu Hadoop Arhitectura RHadoop Hadoop streaming cu R Rezolvarea problemelor de analiză a datelor cu RHadoop Exerciții
Preprocesarea și pregătirea datelor
- Etape de pregătire a datelor Extragerea caracteristicilor Curățarea datelor Integrarea și transformarea datelor Reducerea datelor – eșantionare, selectarea subsetului de caracteristici, Reducerea dimensionalității Discretizare și împărțire Exerciții și studiu de caz
Metode exploratorii de analiză a datelor în R
- Statistică descriptivă Analiza exploratorie a datelor Vizualizarea – pași preliminari Vizualizarea unei singure variabile Examinarea mai multor variabile Metode statistice de evaluare Testarea ipotezelor Exerciții și studiu de caz
Data Visualizations
- Vizualizări de bază în R Pachete pentru vizualizarea datelor ggplot2, lattice, plotly, lattice Formatarea diagramelor în R Grafice avansate Exerciții
Regresie (Estimarea valorilor viitoare)
- Regresia liniară Cazuri de utilizare Descrierea modelului Diagnosticare Probleme cu regresia liniară Metode de contracție, regresia crestei, laso Generalizări și neliniaritate Spline de regresie Regresie polinomială locală Modele aditive generalizate Regresia cu RHadoop Exerciții și studiu de caz
Clasificare
- Probleme legate de clasificare Reîmprospătare bayesiană Naïve Bayes Regresie logistică K-vecini cei mai apropiați Algoritmul arborilor de decizie Rețele neuronale Mașini vectori suport Diagnosticarea clasificatoarelor Comparația metodelor de clasificare Scalaalgoritmi de clasificare bili Exerciții și studiu de caz
Evaluarea performanței și selecția modelului
- Prejudecăți, variații și complexitate a modelului Acuratețe vs interpretabilitate Evaluarea clasificatorilor Măsuri ale performanței modelului/algoritmului Metodă de validare Hold-out Validare încrucișată Ajustarea algoritmilor de învățare automată cu pachetul de indicatori Vizualizarea performanței modelului cu Profit ROC și curbele Lift
Metode de ansamblu
- Exerciții de creștere a gradientului și studiu de caz
Sprijină mașini vectoriale pentru clasificare și regresie
- Clasificatoare de marjă maximă Clasificatoare vectoriale suportă Mașini vectoriale suport SVM-uri pentru probleme de clasificare SVM-uri pentru probleme de regresie
Selectarea caracteristicilor pentru Clustering Algoritmi reprezentativi: k-medii, k-medoizi Algoritmi ierarhici: metode aglomerative si divizibile Algoritmi de baza probabilisti: EM Algoritmi bazati pe densitate: DBSCAN, DENCLUE Validare cluster Concepte avansate de clustering Clustering cu exercitii RHadoop
- Descoperirea conexiunilor cu Link Analysis
Concepte de analiză a legăturilor Metrici pentru analiza rețelelor Algoritmul Pagerank Subiect indus de hiperlink Search Exerciții de predicție a legăturilor și studiu de caz
- Asociația Pattern Mining
Frequent Pattern Mining Model Scalaprobleme de abilitate în exploatarea frecventă de modele Algoritmi de forță brută Algoritmul apriori Abordarea de creștere FP Evaluarea regulilor candidatului Aplicații ale regulilor de asociere Validarea și testarea diagnosticelor Reguli de asociere cu R și Hadoop Exerciții și studiu de caz
- Construirea motoarelor de recomandare
Înțelegerea sistemelor de recomandare Tehnicile de extragere a datelor utilizate în sistemele de recomandare Sisteme de recomandare cu pachetul recommenderlab Evaluarea sistemelor de recomandare Recomandări cu RHadoop Exercițiu: Construirea motorului de recomandare
- Analiza textului
Pașii analizei textului Colectarea textului brut Pungă de cuvinte Frecvența termenilor – Frecvența inversă a documentului Determinarea sentimentelor Exerciții și studiu de caz
35 ore
Mărturii (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Curs - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.