Acasa
Big Data Formare
Curs de pregatire Știința Datelor pentru Analiza Big Data

Curs de pregatire Știința Datelor pentru Analiza Big Data

Big data se referă la seturi de date atât de voluminoase și complexe încât software-urile tradiționale de procesare a datelor sunt inadecvate pentru a le gestiona. Provocările big data includ capturarea datelor, stocarea datelor, analiza datelor, căutarea, partajarea, transferul, vizualizarea, interogarea, actualizarea și confidențialitatea informațiilor.

Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.

Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.

Schița de curs

Introducere în Știința Datelor pentru Analiza Big Data

Prezentare generală a Științei Datelor
Prezentare generală a Big Data
Structuri de date
Factorii de conducere și complexitățile Big Data
Ecosistemul Big Data și o nouă abordare a analizei
Tehnologii cheie în Big Data
Procesul și problemele de minerit de date
- Minerit de modele de asociere
- Clustering de date
- Detectarea valorilor aberante
- Clasificarea datelor

Introducere în ciclul de viață al analizei datelor

Descoperire
Pregătirea datelor
Planificarea modelului
Construirea modelului
Prezentarea/Comunicarea rezultatelor
Operaționalizare
Exercițiu: Studiu de caz

De aici înainte, cea mai mare parte a timpului de formare (80%) va fi dedicată exemplelor și exercițiilor în R și tehnologiile conexe de big data.

Începutul lucrului cu R

Instalarea R și Rstudio
Caracteristicile limbajului R
Obiecte în R
Date în R
Manipularea datelor
Probleme de big data
Exerciții

Începutul lucrului cu Hadoop

Instalarea Hadoop
Înțelegerea modurilor Hadoop
HDFS
Arhitectura MapReduce
Prezentare generală a proiectelor legate de Hadoop
Scrierea de programe în Hadoop MapReduce
Exerciții

Integrarea R și Hadoop cu RHadoop

Componentele RHadoop
Instalarea RHadoop și conectarea cu Hadoop
Arhitectura RHadoop
Hadoop streaming cu R
Rezolvarea problemelor de analiză de date cu RHadoop
Exerciții

Pre-procesarea și pregătirea datelor

Pași de pregătire a datelor
Extragerea de caracteristici
Curățarea datelor
Integrarea și transformarea datelor
Reducerea datelor – eșantionare, selecția subsetului de caracteristici,
Reducerea dimensionalității
Discretizare și gruparea
Exerciții și studiu de caz

Metode de analiză exploratorie a datelor în R

Statistici descriptive
Analiză exploratorie a datelor
Vizualizare – pași preliminari
Vizualizarea unei singure variabile
Examinarea mai multor variabile
Metode statistice de evaluare
Testarea ipotezelor
Exerciții și studiu de caz

Vizualizarea datelor

Vizualizări de bază în R
Pachete pentru vizualizarea datelor: ggplot2, lattice, plotly, lattice
Formatarea graficelor în R
Grafice avansate
Exerciții

Regresie (Estimarea valorilor viitoare)

Regresie liniară
Cazuri de utilizare
Descrierea modelului
Diagnosticare
Probleme cu regresia liniară
Metode de reducere, regresie ridge, lasso
Generalizări și neliniaritate
Regresie spline
Regresie polinomială locală
Modele aditive generalizate
Regresie cu RHadoop
Exerciții și studiu de caz

Clasificare

Probleme legate de clasificare
Reîmprospătarea Bayes
Naïve Bayes
Regresie logistică
Vecinii cei mai apropiați (k-nearest neighbors)
Algoritmul arborilor de decizie
Rețele neuronale
Mașini cu vectori de suport
Diagnosticarea clasificatorilor
Compararea metodelor de clasificare
Algoritmi scalabili de clasificare
Exerciții și studiu de caz

Evaluarea performanței și selecția modelului

Părtinire, varianță și complexitatea modelului
Precizie vs Interpretabilitate
Evaluarea clasificatorilor
Măsuri de performanță a modelului/algoritmului
Metoda hold-out de validare
Validare încrucișată
Reglarea algoritmilor de învățare automată cu pachetul caret
Vizualizarea performanței modelului cu curbe Profit ROC și Lift

Metode de ansamblu

Bagging
Păduri aleatoare
Boosting
Boosting de gradient
Exerciții și studiu de caz

Mașini cu vectori de suport pentru clasificare și regresie

Clasificatori cu margine maximă
- Clasificatori cu vectori de suport
- Mașini cu vectori de suport
- SVM-uri pentru probleme de clasificare
- SVM-uri pentru probleme de regresie
Exerciții și studiu de caz

Identificarea grupurilor necunoscute într-un set de date

Selecția caracteristicilor pentru clustering
Algoritmi reprezentativi: k-means, k-medoids
Algoritmi ierarhici: metode aglomerative și divizive
Algoritmi bazate pe probabilități: EM
Algoritmi bazate pe densitate: DBSCAN, DENCLUE
Validarea clusterelor
Concepte avansate de clustering
Clustering cu RHadoop
Exerciții și studiu de caz

Descoperirea conexiunilor cu analiza de legături

Concepte de analiză de legături
Metrici pentru analiza rețelelor
Algoritmul Pagerank
Căutare tematică indusă de hiperlinkuri
Prezicerea legăturilor
Exerciții și studiu de caz

Mineritul de modele de asociere

Modelul de minerit de modele frecvente
Probleme de scalabilitate în mineritul de modele frecvente
Algoritmi de forță brută
Algoritmul Apriori
Abordarea FP growth
Evaluarea regulilor candidate
Aplicații ale regulilor de asociere
Validare și testare
Diagnosticare
Reguli de asociere cu R și Hadoop
Exerciții și studiu de caz

Construirea motoarelor de recomandare

Înțelegerea sistemelor de recomandare
Tehnici de minerit de date utilizate în sistemele de recomandare
Sisteme de recomandare cu pachetul recommenderlab
Evaluarea sistemelor de recomandare
Recomandări cu RHadoop
Exercițiu: Construirea unui motor de recomandare

Analiza textului

Pași de analiză a textului
Colectarea textului brut
Sac de cuvinte
Frecvența termenului – Frecvența inversă a documentului
Determinarea sentimentelor
Exerciții și studiu de caz

35 Ore

Numărul de participanți

(Online (Distanță))

Sală de clasă

Selectati Locatia

Vă rugăm să selectați un loc

Pret per participant

Cursurile publice necesita 5+ participanti

Curs de pregatire Știința Datelor pentru Analiza Big Data - Rezervare

Nume Prenume *

E-mail *

Telefon *

Numele jobului

Numele companiei

Adresa 1 *

Orasul *

Oras / Judet

Tara *

Cod Postal *

Data de inceput

ID Tax

Datale sunt supuse disponibilității și au loc între 09:30 și 16:30.

Metoda de plata *

Transfer Bancar (Factura, PO)

Credit / Debit Card

Comentarii

Termeni și Condiții *

Sunt un reprezentant autorizat al clientului menționat mai sus și doresc să rezerv cursurile sau serviciile de mai sus în conformitate cu Termenii și condițiile NobleProg și cu Politica de confidențialitate.

Informeaza-ma de discount-uri si promotii.

Vă rugăm să citiți Politica de confidențialitate pentru a afla cum folosim datele dumneavoastră.

Curs de pregatire Știința Datelor pentru Analiza Big Data - Solicitare

Nume Prenume *

E-mail *

Telefon *

Numărul de participanți

Numele companiei

Adresa Companiei

Cum vrei să urmezi cursul?

Locatia clientului

Online (Remote)

Sală de clasă

Comentarii

Informeaza-ma de discount-uri si promotii.

Vă rugăm să citiți Politica de confidențialitate pentru a afla cum folosim datele dumneavoastră.

Știința Datelor pentru Analiza Big Data - Cerere de consultanta

Nume Prenume *

Telefon *

E-mail *

Numele companiei

Subiectul de consultanta *

Scopul consultantei

Cu cine va colabora/lucra consultantul?

Urgenta *

Comentarii

Informeaza-ma de discount-uri si promotii.

Vă rugăm să citiți Politica de confidențialitate pentru a afla cum folosim datele dumneavoastră.

Mărturii (2)

Intensitatea, Materiale de instruire și expertiză, Claritate, Comunicare excelentă cu Alessandra

Marija Hornis Dmitrovic - Marija Hornis

Curs - Data Science for Big Data Analytics

Tradus de catre o masina

The example and training material were sufficient and made it easy to understand what you are doing.

Teboho Makenete

Curs - Data Science for Big Data Analytics

1958 EUR (Online (Remote))

2958 EUR (Sală de clasă)

Cursuri înrudite

Ecosistemul Anaconda pentru Oamenii de Știință a Datelor

14 Ore

Acest training condus de un instructor, live în România (online sau la fața locului), este destinat oamenilor de știință a datelor care doresc să utilizeze ecosistemul Anaconda pentru a captura, gestiona și implementa pachete și fluxuri de lucru de analiză a datelor într-o singură platformă.

La finalul acestui training, participanții vor putea:

Instala și configura componentele și bibliotecile Anaconda.
Înțelege conceptele de bază, caracteristicile și beneficiile Anaconda.
Gestiona pachete, medii și canale folosind Anaconda Navigator.
Utiliza pachete Conda, R și Python pentru știința datelor și învățarea automată.
Să cunoască câteva cazuri practice și tehnici pentru gestionarea mai multor medii de date.

Citește mai mult...

Formare pentru Administratori Apache Hadoop

35 Ore

Publicul țintă:

Cursul este destinat specialiștilor IT care caută o soluție pentru stocarea și procesarea seturilor mari de date într-un mediu de sistem distribuit

Obiectiv:

Dobândirea de cunoștințe aprofundate despre administrarea clusterelor Hadoop.

Citește mai mult...

Analiza Big Data în Sănătate

21 Ore

Analiza Big Data implică procesul de examinare a unor cantități mari de seturi de date variate pentru a descoperi corelații, modele ascunse și alte informații utile.

Industria sănătății dispune de volume uriașe de date medicale și clinice complexe și eterogene. Aplicarea analizei Big Data pe datele din domeniul sănătății prezintă un potențial enorm în obținerea de informații pentru îmbunătățirea furnizării de servicii medicale. Cu toate acestea, amploarea acestor seturi de date aduce mari provocări în analize și aplicații practice într-un mediu clinic.

În acest training condus de un instructor, live (la distanță), participanții vor învăța cum să efectueze analize Big Data în domeniul sănătății, parcurgând o serie de exerciții practice în laborator.

La sfârșitul acestui training, participanții vor putea:

Instala și configura instrumente de analiză Big Data, cum ar fi Hadoop MapReduce și Spark
Înțelege caracteristicile datelor medicale
Aplica tehnici Big Data pentru a gestiona date medicale
Studia sisteme și algoritmi Big Data în contextul aplicațiilor din sănătate

Publicul țintă

Dezvoltatori
Specialiști în Știința Datelor

Formatul cursului

Parte teoretică, parte discuții, exerciții și practică intensivă.

Notă

Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.

Citește mai mult...

Hadoop pentru Administratori

21 Ore

Apache Hadoop este cel mai popular cadru pentru procesarea Big Data pe clustere de servere. În acest curs de trei (opțional, patru) zile, participanții vor învăța despre beneficiile și cazurile de utilizare ale Hadoop și ale ecosistemului său, cum să planifice implementarea și creșterea clusterului, cum să instaleze, să întrețină, să monitorizeze, să depaneze și să optimizeze Hadoop. De asemenea, vor exersa încărcarea masivă de date în cluster, se vor familiariza cu diverse distribuții Hadoop și vor exersa instalarea și gestionarea instrumentelor din ecosistemul Hadoop. Cursul se încheie cu o discuție despre securizarea clusterului cu Kerberos.

“…Materialele au fost foarte bine pregătite și acoperite pe larg. Laboratorul a fost foarte util și bine organizat”
— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising

Audiență

Administratori Hadoop

Format

Prelegeri și laboratoare practice, echilibru aproximativ 60% prelegeri, 40% laboratoare.

Citește mai mult...

Hadoop pentru Dezvoltatori (4 zile)

28 Ore

Apache Hadoop este cel mai popular framework pentru procesarea de Big Data pe clustere de servere. Acest curs îi va prezenta unui dezvoltator diverse componente (HDFS, MapReduce, Pig, Hive și HBase) ale ecosistemului Hadoop.

Citește mai mult...

Hadoop Avansat pentru Dezvoltatori

21 Ore

Apache Hadoop este unul dintre cele mai populare framework-uri pentru procesarea Big Data pe clustere de servere. Acest curs explorează gestionarea datelor în HDFS, precum și aspecte avansate ale Pig, Hive și HBase. Aceste tehnici avansate de programare vor fi benefice pentru dezvoltatorii experimentați de Hadoop.

Public țintă: dezvoltatori

Durata: trei zile

Format: prelegeri (50%) și laboratoare practice (50%).

Citește mai mult...

Administrarea Hadoop pe MapR

28 Ore

Publicul țintă:

Acest curs are ca scop să demistifice tehnologia big data/hadoop și să arate că nu este greu de înțeles.

Citește mai mult...

Hadoop și Spark pentru Administratori

35 Ore

Acest training condus de un instructor, live în România (online sau la fața locului) este destinat administratorilor de sistem care doresc să învețe cum să configureze, să implementeze și să gestioneze clustere Hadoop în organizația lor.

La finalul acestui training, participanții vor putea:

Instala și configura Apache Hadoop.
Înțelege cele patru componente majore ale ecosistemului Hadoop: HDFS, MapReduce, YARN și Hadoop Common.
Utiliza Hadoop Distributed File System (HDFS) pentru a scala un cluster la sute sau mii de noduri.
Configura HDFS să funcționeze ca motor de stocare pentru implementările Spark on-premise.
Configura Spark pentru a accesa soluții alternative de stocare, cum ar fi Amazon S3 și sisteme de baze de date NoSQL precum Redis, Elasticsearch, Couchbase, Aerospike, etc.
Efectua sarcini administrative, cum ar fi provizionarea, gestionarea, monitorizarea și securizarea unui cluster Apache Hadoop.

Citește mai mult...

HBase pentru Dezvoltatori

21 Ore

Acest curs introduce HBase – un magazin NoSQL pe baza Hadoop. Cursul este destinat dezvoltatorilor care vor folosi HBase pentru a dezvolta aplicații și administratorilor care vor gestiona clustere HBase.

Vom ghida un dezvoltator prin arhitectura HBase, modelarea datelor și dezvoltarea aplicațiilor pe HBase. De asemenea, vom discuta despre utilizarea MapReduce cu HBase și câteva subiecte de administrare legate de optimizarea performanței. Cursul este foarte practic, cu multe exerciții de laborator.

Durata: 3 zile

Public țintă: Dezvoltatori și Administratori

Citește mai mult...

Kaggle

14 Ore

Acest training condus de un instructor, live în România (online sau la fața locului) este destinat specialiștilor în știința datelor și dezvoltatorilor care doresc să învețe și să-și construiască o carieră în Știința Datelor folosind Kaggle.

La finalul acestui training, participanții vor putea:

Să învețe despre știința datelor și învățarea automată.
Să exploreze analiza datelor.
Să învețe despre Kaggle și cum funcționează.

Citește mai mult...

Accelerarea Fluxurilor de Lucru Python Pandas cu Modin

14 Ore

Acest training condus de un instructor, live în România (online sau la fața locului), este destinat oamenilor de știință și dezvoltatorilor care doresc să folosească Modin pentru a construi și implementa calcule paralele cu Pandas pentru o analiză de date mai rapidă.

La sfârșitul acestui training, participanții vor putea:

Să configureze mediul necesar pentru a începe dezvoltarea fluxurilor de lucru Pandas la scară largă cu Modin.
Să înțeleagă caracteristicile, arhitectura și avantajele Modin.
Să cunoască diferențele dintre Modin, Dask și Ray.
Să efectueze operațiuni Pandas mai rapid cu Modin.
Să implementeze întreaga API și funcții Pandas.

Citește mai mult...

PySpark și Machine Learning

21 Ore

Acest training oferă o introducere practică în construirea de fluxuri de lucru scalabile de procesare a datelor și Machine Learning folosind PySpark. Participanții vor învăța cum funcționează Apache Spark în ecosistemele moderne de Big Data și cum să proceseze eficient seturi mari de date folosind principiile calculului distribuit.

Citește mai mult...

Știința Datelor pe GPU cu NVIDIA RAPIDS

14 Ore

Acest training condus de un instructor, live în România (online sau la fața locului), este destinat oamenilor de știință și dezvoltatorilor care doresc să folosească RAPIDS pentru a construi fluxuri de date accelerate pe GPU, fluxuri de lucru și vizualizări, aplicând algoritmi de învățare automată, cum ar fi XGBoost, cuML etc.

La finalul acestui training, participanții vor putea:

Să configureze mediul de dezvoltare necesar pentru a construi modele de date cu NVIDIA RAPIDS.
Să înțeleagă caracteristicile, componentele și avantajele RAPIDS.
Să utilizeze GPU-uri pentru a accelera fluxurile de date și analize de la un capăt la altul.
Să implementeze pregătirea datelor accelerate pe GPU și ETL cu cuDF și Apache Arrow.
Să învețe cum să execute sarcini de învățare automată cu algoritmii XGBoost și cuML.
Să construiască vizualizări de date și să execute analize grafice cu cuXfilter și cuGraph.

Citește mai mult...

Python și Spark pentru Big Data (PySpark)

21 Ore

În acest training condus de un instructor, în format live în România, participanții vor învăța cum să folosească împreună Python și Spark pentru a analiza date mari, lucrând la exerciții practice.

La finalul acestui training, participanții vor fi capabili să:

Învețe cum să folosească Spark cu Python pentru a analiza date mari.
Lucreze la exerciții care imită cazuri din lumea reală.
Folosească diferite instrumente și tehnici pentru analiza datelor mari folosind PySpark.

Citește mai mult...

Stratio: Modulele Rocket și Intelligence cu PySpark

14 Ore

Stratio este o platformă centrată pe date care integrează big data, inteligența artificială și guvernanța într-o singură soluție. Modulele sale Rocket și Intelligence permit explorarea rapidă a datelor, transformarea și analiza avansată în medii enterprise.

Această sesiune de formare condusă de un instructor (online sau la fața locului) este destinată profesioniștilor de date de nivel intermediar care doresc să utilizeze eficient modulele Rocket și Intelligence din Stratio cu PySpark, concentrându-se pe structuri de buclă, funcții definite de utilizator și logica avansată a datelor.

La finalul acestei formări, participanții vor putea:

Să navigheze și să lucreze în platforma Stratio folosind modulele Rocket și Intelligence.
Să aplice PySpark în contextul ingerării, transformării și analizei datelor.
Să utilizeze bucle și logică condițională pentru a controla fluxurile de date și sarcinile de inginerie a caracteristicilor.
Să creeze și să gestioneze funcții definite de utilizator (UDF) pentru operații reutilizabile de date în PySpark.

Formatul cursului

Prelegere interactivă și discuții.
Multe exerciții și practică.
Implementare practică într-un mediu live-lab.

Opțiuni de personalizare a cursului

Pentru a solicita o formare personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.

Citește mai mult...

Curs de pregatire Știința Datelor pentru Analiza Big Data

Schița de curs

Introducere în Știința Datelor pentru Analiza Big Data

Introducere în ciclul de viață al analizei datelor

De aici înainte, cea mai mare parte a timpului de formare (80%) va fi dedicată exemplelor și exercițiilor în R și tehnologiile conexe de big data.

Începutul lucrului cu R

Începutul lucrului cu Hadoop

Integrarea R și Hadoop cu RHadoop

Pre-procesarea și pregătirea datelor

Metode de analiză exploratorie a datelor în R

Vizualizarea datelor

Regresie (Estimarea valorilor viitoare)

Clasificare

Evaluarea performanței și selecția modelului

Metode de ansamblu

Mașini cu vectori de suport pentru clasificare și regresie

Identificarea grupurilor necunoscute într-un set de date

Descoperirea conexiunilor cu analiza de legături

Mineritul de modele de asociere

Construirea motoarelor de recomandare

Analiza textului

Mărturii (2)

Marija Hornis Dmitrovic - Marija Hornis

Curs - Data Science for Big Data Analytics

Teboho Makenete

Curs - Data Science for Big Data Analytics

Cursuri viitoare

Știința Datelor pentru Analiza Big Data

Știința Datelor pentru Analiza Big Data

Știința Datelor pentru Analiza Big Data

Știința Datelor pentru Analiza Big Data

Știința Datelor pentru Analiza Big Data

Categorii înrudite

Această site în alte țări/regiuni

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites