Cursuri de pregatire SMACK Stack for Data Science
SMACK este o colecție de software-uri de platformă de date, și anume Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, și Apache Kafka. Cu ajutorul stacului SMACK, utilizatorii pot crea și scala platforme de prelucrare a datelor.
Această formare directă, condusă de instructori (online sau on-site) este destinată cercetătorilor de date care doresc să utilizeze stack-ul SMACK pentru a construi platforme de prelucrare a datelor pentru soluții de date mari.
La sfârșitul cursului, participanții vor putea:
- Implementarea unei arhitecturi de pipeline de date pentru prelucrarea datelor mari.
- Dezvoltarea unei infrastructuri cluster cu Apache Mesos și Docker.
- Analiza datelor cu Spark și Scala.
- Gestionarea datelor neconstrucționate cu Apache Cassandra.
Formatul cursului
- Lecții și discuții interactive.
- Multe exerciții și practici.
- Implementarea pe mâini într-un mediu live-lab.
Opțiuni de personalizare
- Pentru a solicita o pregătire personalizată pentru acest curs, vă rugăm să ne contactați pentru a organiza.
Schița de curs
Introducere
Prezentare generală a stivei SMACK
- Ce este Apache Spark? Caracteristicile Apache Spark
- Ce este Apache Mesos? Caracteristicile Apache Mesos
- Ce este Apache Akka? Caracteristicile Apache Akka
- Ce este Apache Cassandra? Caracteristicile Apache Cassandra
- Ce este Apache Kafka? Caracteristicile Apache Kafka
Scala Limba
- Scala sintaxă și structură
- Scala fluxul de control
Pregătirea mediului de dezvoltare
- Instalarea și configurarea stivei SMACK
- Instalarea și configurarea Docker
Apache Akka
- Utilizarea actorilor
Apache Cassandra
- Crearea unei baze de date pentru operațiuni de citire
- Lucrul cu copiile de rezervă și recuperarea
Conectori
- Crearea unui flux
- Construirea unei aplicații Akka
- Stocarea datelor cu Cassandra
- Examinarea conectorilor
Apache Kafka
- Lucrul cu clusterele
- Crearea, publicarea și consumarea mesajelor
Apache Mesos
- Alocarea resurselor
- Rularea clusterelor
- Lucrul cu Apache Aurora și Docker
- Rularea serviciilor și a lucrărilor
- Implementarea Spark, Cassandra și Kafka pe Mesos
Apache Spark
- Gestionarea fluxurilor de date
- Lucrul cu RDD-uri și cadre de date
- Efectuarea de analize de date
Depanare
- Gestionarea eșecurilor de servicii și a erorilor
Rezumat și concluzii
Cerințe
- O înțelegere a sistemelor de procesare a datelor
Audiență
- Cercetători de date
Cursurile publice necesita 5+ participanti
Cursuri de pregatire SMACK Stack for Data Science - Booking
Cursuri de pregatire SMACK Stack for Data Science - Enquiry
SMACK Stack for Data Science - Cerere de consultanta
Mărturii (1)
very interactive...
Richard Langford
Curs - SMACK Stack for Data Science
Upcoming Courses
Cursuri înrudite
Kaggle
14 oreAceastă formare live, cu instructor, în România (online sau la fața locului) se adresează cercetătorilor și dezvoltatorilor de date care doresc să învețe și să își construiască o carieră în Data Science folosind Kaggle.
Până la sfârșitul acestei formări, participanții vor fi capabili să:
- Să învețe despre știința datelor și învățarea automată.
- Să exploreze analiza datelor.
- Să învețe despre Kaggle și modul său de funcționare.
Accelerating Python Pandas Workflows with Modin
14 oreAcest curs de formare live, condus de un instructor în România (online sau la fața locului) se adresează cercetătorilor și dezvoltatorilor de date care doresc să utilizeze Modin pentru a construi și implementa calcule paralele cu Pandas pentru o analiză mai rapidă a datelor.
Până la sfârșitul acestui training, participanții vor fi capabili să:
- Să configureze mediul necesar pentru a începe să dezvolte fluxuri de lucru Pandas la scară largă cu Modin.
- Să înțeleagă caracteristicile, arhitectura și avantajele Modin.
- Să cunoască diferențele dintre Modin, Dask și Ray.
- Efectuați operații Pandas mai rapid cu Modin.
- Implementați întregul API și funcțiile Pandas.
GPU Data Science with NVIDIA RAPIDS
14 oreAcest curs de formare live, condus de un instructor în România (online sau la fața locului) se adresează cercetătorilor și dezvoltatorilor de date care doresc să utilizeze RAPIDS pentru a construi conducte de date, fluxuri de lucru și vizualizări accelerate GPU, aplicând algoritmi de învățare automată, cum ar fi XGBoost, cuML etc.
La sfârșitul acestui curs, participanții vor fi capabili să:
- Configurați mediul de dezvoltare necesar pentru a construi modele de date cu NVIDIA RAPIDS.
- Să înțeleagă caracteristicile, componentele și avantajele RAPIDS.
- Să utilizeze GPUs pentru a accelera conductele de date și de analiză de la un capăt la altul.
- Implementați pregătirea datelor și ETL accelerate cu GPU- cu cuDF și Apache Arrow.
- Învățați cum să efectuați sarcini de învățare automată cu algoritmi XGBoost și cuML.
- Creați vizualizări de date și executați analize grafice cu cuXfilter și cuGraph.
Anaconda Ecosystem for Data Scientists
14 oreAceastă instruire live, condusă de un instructor în România (online sau la fața locului) se adresează oamenilor de știință din domeniul datelor care doresc să utilizeze ecosistemul Anaconda pentru a captura, gestiona și implementa pachete și fluxuri de lucru pentru analiza datelor într-o singură platformă.
Până la sfârșitul acestui curs, participanții vor fi capabili să:
- Să instaleze și să configureze componentele și bibliotecile Anaconda.
- Să înțeleagă conceptele, caracteristicile și beneficiile de bază ale Anaconda.
- Să gestioneze pachete, medii și canale utilizând Anaconda Navigator.
- Utilizați Conda, R și pachetele Python pentru știința datelor și învățarea automată.
- Cunoașteți câteva cazuri practice de utilizare și tehnici pentru gestionarea mai multor medii de date.
Python and Spark for Big Data (PySpark)
21 oreÎn cadrul acestui curs de formare live, condus de un instructor în România, participanții vor învăța cum să utilizeze Python și Spark împreună pentru a analiza date mari, pe măsură ce lucrează la exerciții practice.
Până la sfârșitul acestui training, participanții vor fi capabili să:
- Să învețe cum să utilizeze Spark cu Python pentru a analiza Big Data.
- Să lucreze la exerciții care imită cazuri din lumea reală.
- Să utilizeze diferite instrumente și tehnici pentru analiza datelor mari utilizând PySpark.
Introduction to Graph Computing
28 oreÎn cadrul acestei formări live cu instructor în România, participanții vor învăța despre ofertele tehnologice și abordările de implementare pentru prelucrarea datelor grafice. Scopul este de a identifica obiecte din lumea reală, caracteristicile și relațiile acestora, apoi de a modela aceste relații și de a le prelucra ca date utilizând o abordare Graph Computing (cunoscută și sub denumirea de Graph Analytics). Vom începe cu o prezentare generală și ne vom concentra pe instrumente specifice pe măsură ce parcurgem o serie de studii de caz, exerciții practice și implementări live.
Până la sfârșitul acestui curs, participanții vor fi capabili să:
- Să înțeleagă modul în care datele grafice sunt păstrate și parcurse.
- Să selecteze cel mai bun cadru pentru o anumită sarcină (de la baze de date grafice la cadre de procesare pe loturi).
- Să implementeze Hadoop, Spark, GraphX și Pregel pentru a efectua calculul grafurilor pe mai multe mașini în paralel.
- Vizualizarea problemelor reale legate de big data în termeni de grafuri, procese și traversări.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 oreAcest curs se adresează dezvoltatorilor și cercetătorilor de date care doresc să înțeleagă și să implementeze inteligența artificială în aplicațiile lor. O atenție deosebită este acordată analizei datelor, inteligenței artificiale distribuite și procesării limbajului natural.
Apache Spark MLlib
35 oreMLlib este biblioteca Spark de învățare automată (ML). Scopul său este de a face învățarea practică a mașinilor scalabilă și ușoară. Se compune din algoritmi și utilități comune de învățare, inclusiv clasificarea, regresia, gruparea, filtrarea colaborativă, reducerea dimensiunilor, precum și primitivele de optimizare la nivel inferior și API-urile de conducte de nivel superior.
Se împarte în două pachete:
spark.mllib conține API original construit pe partea de sus RDDs.
spark.ml furnizează API de nivel superior construit pe partea de sus a DataFrames pentru construirea conductelor ML.
Public
Acest curs este adresat inginerilor și dezvoltatorilor care încearcă să utilizeze o mașină de bibliotecă construită pentru Apache Spark
Introduction to Data Science and AI using Python
35 oreAceasta este o introducere de 5 zile în Data Science și AI.
Cursul se livrează cu exemple și exerciții cu Python
AWS Cloud9 for Data Science
28 oreAceastă instruire live cu instructor în România (online sau la fața locului) se adresează cercetătorilor și analiștilor de date de nivel mediu care doresc să utilizeze AWS Cloud9 pentru fluxuri de lucru simplificate în domeniul științei datelor.
Până la sfârșitul acestui training, participanții vor fi capabili să:
- Să configureze un mediu pentru știința datelor în AWS Cloud9.
- Să efectueze analize de date utilizând Python, R și Jupyter Notebook în Cloud9.
- Să integreze AWS Cloud9 cu serviciile de date AWS precum S3, RDS și Redshift.
- Utilizați AWS Cloud9 pentru dezvoltarea și implementarea modelelor de învățare automată.
- Optimizați fluxurile de lucru bazate pe cloud pentru analiza și prelucrarea datelor.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 oreVizualizare
Furnizorii de servicii (CSP) se confruntă cu presiune pentru a reduce costurile și a maximiza veniturile medii pe utilizator (ARPU), asigurând în același timp o experiență excelentă a clienților, dar volumele de date continuă să crească. Traficul global de date mobile va crește la o rată anuală de creștere combinată (CAGR) de 78% până în 2016, ajungând la 10,8 exabite pe lună.
Între timp, CSP generează volume mari de date, inclusiv înregistrări de detalii de apel (CDR), date de rețea și date despre clienți. Companiile care exploatează pe deplin aceste date câștigă un prag competitiv. Conform unui sondaj recent realizat de The Economist Intelligence Unit, companiile care folosesc deciziile bazate pe date se bucură de o creștere de productivitate de 5-6%. Cu toate acestea, 53% dintre companii folosesc doar jumătate din datele lor valoroase, iar un sfert dintre respondenți a observat că cantități imense de date utile nu sunt folosite. Volumele de date sunt atât de mari încât analiza manuală este imposibilă, iar cele mai multe sisteme software de moștenire nu se pot menține, ceea ce duce la descărcarea sau ignorarea datelor valoroase.
Cu Big Data & Analytics’ software-ul de date mari de mare viteză, scalabil, CSP-urile pot minera toate datele lor pentru o mai bună luare a deciziilor în mai puțin timp. Diferite produse și tehnici oferă o platformă de software fin-to-end pentru colectarea, pregătirea, analizarea și prezentarea de înțelegeri din datele mari. Domeniile de aplicare includ monitorizarea performanței rețelei, detecția fraudelor, detecția clienților și analiza riscurilor de credit. Big Data & Scala produselor de analiză pentru a gestiona terabite de date, dar implementarea unor astfel de instrumente necesită un nou tip de sistem de bază de date bazată pe cloud, cum ar fi Hadoop sau procesorul de calcul paralel cu scară masivă (KPU etc.)
Acest curs lucrează pe Big Data BI pentru Telco acoperă toate domeniile emergente în care CSP-urile investesc pentru creșterea productivității și deschiderea unui nou flux de venituri de afaceri. Cursul va oferi o imagine completă de 360 de grade a Big Data BI în Telco, astfel încât factorii de decizie și managerii pot avea o imagine foarte largă și cuprinzătoare a posibilităților Big Data BI în Telco pentru productivitate și câștiguri de venituri.
Obiectivele cursului
Obiectivul principal al cursului este de a introduce noi Big Data tehnici de inteligență a afacerilor în 4 sectoare de Telecom Business (Marketing/ Vânzări, Operațiuni de rețea, Operațiuni financiare și Relații cu clienții Management). Elevii vor fi invitați să urmeze:
- Introducere la Big Data-ce este 4Vs (volume, viteză, varietate și veracitate) în Big Data- Generație, extracție și management din perspectiva Telco
- Cum se diferențiază analiza de date de moștenire
- In-house justificare a Big Data -Perspectivă Telco
- Introducere la Hadoop Ecosistem- familiaritate cu toate Hadoop instrumente cum ar fi Hive, Pig, SPARC –când și cum sunt utilizate pentru a rezolva problema Big Data
- Cum Big Data este extras pentru a analiza pentru instrumentul de analiză-cum Business Analysis’s pot reduce punctele lor de durere de colectare și de analiză a datelor prin abordarea integrată Hadoop dashboard
- Introducere de bază a analizei Insight, analizei de vizualizare și analizei predictive pentru Telco
- Analiza clienților Churn și Big Data-cum Big Data analiza pot reduce churnul clienților și insatisfacția clienților în studiile de caz Telco
- Analiza eșecurilor de rețea și a eșecurilor de serviciu din meta-data rețelei și IPDR
- Analiza financiară-fraudă, vase și estimarea ROI din vânzări și date operaționale
- Problema achiziției clienților - Marketingul țintă, segmentarea clienților și vânzările transversale din datele de vânzare
- Introducere și rezumat al tuturor produselor analitice Big Data și unde se potrivesc în spațiul analitic Telco
- Conclusie-cum să luați o abordare pas cu pas pentru a introduce Big Data Business Intelligence în organizația dvs.
Publicul țintă
- Operarea rețelei, managerii financiari, managerii CRM și managerii IT de top în biroul Telco CIO.
- Business Analiștii din Telco
- Administratori de birouri / analisti CFO
- Manageri de operare
- Managerii QA
Introduction to Google Colab for Data Science
14 oreAceastă instruire live, condusă de un instructor în România (online sau la fața locului) se adresează cercetătorilor de date de nivel începător și profesioniștilor IT care doresc să învețe elementele de bază ale științei datelor utilizând Google Colab.
Până la sfârșitul acestui training, participanții vor fi capabili să:
- Să configureze și să navigheze în Google Colab.
- Să scrie și să execute cod Python de bază.
- Să importe și să gestioneze seturi de date.
- Să creeze vizualizări utilizând biblioteci Python.
A Practical Introduction to Data Science
35 oreData Science for Big Data Analytics
35 oreDatele mari sunt seturi de date atât de voluminoase și complexe încât softurile tradiționale de aplicații de prelucrare a datelor nu sunt adecvate pentru a le trata. Provocările de date mari includ captarea datelor, stocarea datelor, analiza datelor, căutarea, partajarea, transferul, vizualizarea, interogarea, actualizarea și confidențialitatea informațiilor.
Data Science essential for Marketing/Sales professionals
21 oreAcest curs este destinat Marketing profesioniștilor în vânzări care intenționează să aprofundeze aplicarea științei datelor în Marketing/Vânzări. Cursul oferă o acoperire detaliată a diferitelor tehnici de știință a datelor utilizate pentru „upsale”, „cross-sale”, segmentarea pieței, branding și CLV.
Diferența dintre Marketing și vânzări - Cum este că vânzările și marketingul sunt diferite?
În cuvinte foarte simple, vânzările pot fi denumite un proces care se concentrează sau vizează indivizi sau grupuri mici. Marketing, pe de altă parte, vizează un grup mai mare sau publicul larg. Marketing include cercetarea (identificarea nevoilor clientului), dezvoltarea produselor (producerea de produse inovatoare) și promovarea produsului (prin reclame) și crearea conștientizării despre produs în rândul consumatorilor. Ca atare, marketingul înseamnă generarea de clienți potențiali sau perspective. Odată ce produsul este scos pe piață, este sarcina vânzătorului să convingă clientul să cumpere produsul. Vânzările înseamnă convertirea clienților potențiali sau potențialilor în achiziții și comenzi, în timp ce marketingul vizează termene mai lungi, vânzările se referă la obiective mai scurte.