Cursuri de pregatire SMACK Stack for Data Science
SMACK este o colecție de software-uri de platformă de date, și anume Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, și Apache Kafka. Cu ajutorul stacului SMACK, utilizatorii pot crea și scala platforme de prelucrare a datelor.
Această formare directă, condusă de instructori (online sau on-site) este destinată cercetătorilor de date care doresc să utilizeze stack-ul SMACK pentru a construi platforme de prelucrare a datelor pentru soluții de date mari.
La sfârșitul cursului, participanții vor putea:
- Implementarea unei arhitecturi de pipeline de date pentru prelucrarea datelor mari.
- Dezvoltarea unei infrastructuri cluster cu Apache Mesos și Docker.
- Analiza datelor cu Spark și Scala.
- Gestionarea datelor neconstrucționate cu Apache Cassandra.
Formatul cursului
- Lecții și discuții interactive.
- Multe exerciții și practici.
- Implementarea pe mâini într-un mediu live-lab.
Opțiuni de personalizare
- Pentru a solicita o pregătire personalizată pentru acest curs, vă rugăm să ne contactați pentru a organiza.
Schița de curs
Introducere
Prezentare generală a stivei SMACK
- Ce este Apache Spark? Caracteristicile Apache Spark
- Ce este Apache Mesos? Caracteristicile Apache Mesos
- Ce este Apache Akka? Caracteristicile Apache Akka
- Ce este Apache Cassandra? Caracteristicile Apache Cassandra
- Ce este Apache Kafka? Caracteristicile Apache Kafka
Scala Limba
- Scala sintaxă și structură
- Scala fluxul de control
Pregătirea mediului de dezvoltare
- Instalarea și configurarea stivei SMACK
- Instalarea și configurarea Docker
Apache Akka
- Utilizarea actorilor
Apache Cassandra
- Crearea unei baze de date pentru operațiuni de citire
- Lucrul cu copiile de rezervă și recuperarea
Conectori
- Crearea unui flux
- Construirea unei aplicații Akka
- Stocarea datelor cu Cassandra
- Examinarea conectorilor
Apache Kafka
- Lucrul cu clusterele
- Crearea, publicarea și consumarea mesajelor
Apache Mesos
- Alocarea resurselor
- Rularea clusterelor
- Lucrul cu Apache Aurora și Docker
- Rularea serviciilor și a lucrărilor
- Implementarea Spark, Cassandra și Kafka pe Mesos
Apache Spark
- Gestionarea fluxurilor de date
- Lucrul cu RDD-uri și cadre de date
- Efectuarea de analize de date
Depanare
- Gestionarea eșecurilor de servicii și a erorilor
Rezumat și concluzii
Cerințe
- O înțelegere a sistemelor de procesare a datelor
Audiență
- Cercetători de date
Cursurile publice necesita 5+ participanti
Cursuri de pregatire SMACK Stack for Data Science - Rezervare
Cursuri de pregatire SMACK Stack for Data Science - Solicita Oferta
SMACK Stack for Data Science - Cerere de consultanta
Mărturii (1)
very interactive...
Richard Langford
Curs - SMACK Stack for Data Science
Upcoming Courses
Cursuri înrudite
Kaggle
14 oreAcest curs de instruire live, condus de un instructor în România (online sau la fața locului) se adresează oamenilor de știință de date și dezvoltatorilor care doresc să învețe și să își construiască o carieră în domeniul științei datelor folosind Kaggle.
La sfârșitul acestui curs de formare, participanții vor fi capabili să:
- Învățați despre știința datelor și învățarea mașinilor.
- Explorați analiza datelor.
- Învățați despre Kaggle și cum funcționează. .
Accelerating Python Pandas Workflows with Modin
14 oreAcest curs de instruire live, condus de un instructor în România (online sau la fața locului) se adresează oamenilor de știință și dezvoltatorilor de date care doresc să utilizeze Modin pentru a construi și implementa calcule paralele cu Pandas pentru o analiză mai rapidă a datelor.
La sfârșitul acestui curs de formare, participanții vor fi capabili să:
- Setați mediul necesar pentru a începe să dezvoltați Pandas fluxuri de lucru la scară cu Modin. .
- Înțelegeți caracteristicile, arhitectura și avantajele Modin. .
- Cunoașteți diferențele dintre Modin, Dask și Ray. .
- Realizați Pandas operații mai rapid cu Modin. .
- Implementați întregul Pandas API și funcțiile. .
GPU Data Science with NVIDIA RAPIDS
14 oreAcest curs de instruire live, condus de un instructor în România (online sau la fața locului) se adresează oamenilor de știință și dezvoltatorilor de date care doresc să utilizeze RAPIDS pentru a construi conducte de date accelerate de GPU, fluxuri de lucru și vizualizări, aplicând algoritmi de învățare automată, cum ar fi XGBoost, cuML etc.
La sfârșitul acestui curs de formare, participanții vor fi capabili să:
- Setați mediul de dezvoltare necesar pentru a construi modele de date cu NVIDIA RAPIDS. .
- Înțelegeți caracteristicile, componentele și avantajele RAPIDS. .
- Utilizați GPU-urile pentru a accelera conductele de date și de analiză end-to-end. .
- Implementați pregătirea datelor accelerată de GPU și ETL cu cuDF și Apache Arrow. .
- Învățați cum să efectuați sarcini de învățare automată cu algoritmii XGBoost și cuML. .
- Construiți vizualizări de date și executați analize grafice cu cuXfilter și cuGraph. .
Anaconda Ecosystem for Data Scientists
14 oreAceastă instruire live, condusă de un instructor în România (online sau la fața locului) se adresează oamenilor de știință de date care doresc să utilizeze ecosistemul Anaconda pentru a captura, gestiona și implementa pachete și fluxuri de lucru de analiză a datelor într-o singură platformă.
La sfârșitul acestui curs de formare, participanții vor fi capabili să:
- Instalați și configurați componentele și bibliotecile Anaconda.
- Înțelegeți conceptele de bază, caracteristicile și beneficiile lui Anaconda. .
- Gestionați pachetele, mediile și canalele utilizând Anaconda Navigator. .
- Utilizați Conda, R și pachetele Python pentru știința datelor și învățarea automată. .
- Cunoașteți câteva cazuri de utilizare practică și tehnici pentru gestionarea mai multor medii de date. .
Python and Spark for Big Data (PySpark)
21 oreÎn cadrul acestui curs de instruire live, condus de un instructor în România, participanții vor învăța cum să utilizeze Python și Spark împreună pentru a analiza date mari în timp ce lucrează la exerciții practice.
La sfârșitul acestui curs de formare, participanții vor fi capabili să:
- Învățați cum să utilizați Spark cu Python pentru a analiza Big Data.
- Lucrați la exerciții care imită cazuri din lumea reală.
- Utilizați diferite instrumente și tehnici de analiză a datelor mari folosind PySpark. .
Introduction to Graph Computing
28 oreÎn cadrul acestui curs de instruire live, condus de un instructor în România, participanții vor învăța despre ofertele tehnologice și abordările de implementare pentru procesarea datelor grafice. Scopul este de a identifica obiectele din lumea reală, caracteristicile și relațiile acestora, apoi de a modela aceste relații și de a le procesa ca date utilizând o abordare Graph Computing (cunoscută și sub numele de Graph Analytics). Începem cu o prezentare generală și ne concentrăm asupra unor instrumente specifice pe măsură ce parcurgem o serie de studii de caz, exerciții practice și implementări live.
La sfârșitul acestui curs de formare, participanții vor fi capabili să:
- Înțelegeți modul în care datele grafice sunt persistate și traversate.
- Selectați cel mai bun cadru pentru o anumită sarcină (de la baze de date grafice la cadre de procesare pe loturi.) .
- Implementați Hadoop, Spark, GraphX și Pregel pentru a efectua calculul grafic pe mai multe mașini în paralel. .
- Veziți problemele de big data din lumea reală în termeni de grafuri, procese și traversări. .
Apache Spark MLlib
35 oreMLlib este biblioteca Spark de învățare automată (ML). Scopul său este de a face învățarea practică a mașinilor scalabilă și ușoară. Se compune din algoritmi și utilități comune de învățare, inclusiv clasificarea, regresia, gruparea, filtrarea colaborativă, reducerea dimensiunilor, precum și primitivele de optimizare la nivel inferior și API-urile de conducte de nivel superior.
Se împarte în două pachete:
spark.mllib conține API original construit pe partea de sus RDDs.
spark.ml furnizează API de nivel superior construit pe partea de sus a DataFrames pentru construirea conductelor ML.
Public
Acest curs este adresat inginerilor și dezvoltatorilor care încearcă să utilizeze o mașină de bibliotecă construită pentru Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 oreAcest curs se adresează dezvoltatorilor și cercetătorilor de date care doresc să înțeleagă și să implementeze inteligența artificială în aplicațiile lor. Se acordă o atenție deosebită analizei datelor, inteligenței artificiale distribuite și procesării limbajului natural.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 oreVizualizare
Furnizorii de servicii (CSP) se confruntă cu presiune pentru a reduce costurile și a maximiza veniturile medii pe utilizator (ARPU), asigurând în același timp o experiență excelentă a clienților, dar volumele de date continuă să crească. Traficul global de date mobile va crește la o rată anuală de creștere combinată (CAGR) de 78% până în 2016, ajungând la 10,8 exabite pe lună.
Între timp, CSP generează volume mari de date, inclusiv înregistrări de detalii de apel (CDR), date de rețea și date despre clienți. Companiile care exploatează pe deplin aceste date câștigă un prag competitiv. Conform unui sondaj recent realizat de The Economist Intelligence Unit, companiile care folosesc deciziile bazate pe date se bucură de o creștere de productivitate de 5-6%. Cu toate acestea, 53% dintre companii folosesc doar jumătate din datele lor valoroase, iar un sfert dintre respondenți a observat că cantități imense de date utile nu sunt folosite. Volumele de date sunt atât de mari încât analiza manuală este imposibilă, iar cele mai multe sisteme software de moștenire nu se pot menține, ceea ce duce la descărcarea sau ignorarea datelor valoroase.
Cu Big Data & Analytics’ software-ul de date mari de mare viteză, scalabil, CSP-urile pot minera toate datele lor pentru o mai bună luare a deciziilor în mai puțin timp. Diferite produse și tehnici oferă o platformă de software fin-to-end pentru colectarea, pregătirea, analizarea și prezentarea de înțelegeri din datele mari. Domeniile de aplicare includ monitorizarea performanței rețelei, detecția fraudelor, detecția clienților și analiza riscurilor de credit. Big Data & Scala produselor de analiză pentru a gestiona terabite de date, dar implementarea unor astfel de instrumente necesită un nou tip de sistem de bază de date bazată pe cloud, cum ar fi Hadoop sau procesorul de calcul paralel cu scară masivă (KPU etc.)
Acest curs lucrează pe Big Data BI pentru Telco acoperă toate domeniile emergente în care CSP-urile investesc pentru creșterea productivității și deschiderea unui nou flux de venituri de afaceri. Cursul va oferi o imagine completă de 360 de grade a Big Data BI în Telco, astfel încât factorii de decizie și managerii pot avea o imagine foarte largă și cuprinzătoare a posibilităților Big Data BI în Telco pentru productivitate și câștiguri de venituri.
Obiectivele cursului
Obiectivul principal al cursului este de a introduce noi Big Data tehnici de inteligență a afacerilor în 4 sectoare de Telecom Business (Marketing/ Vânzări, Operațiuni de rețea, Operațiuni financiare și Relații cu clienții Management). Elevii vor fi invitați să urmeze:
- Introducere la Big Data-ce este 4Vs (volume, viteză, varietate și veracitate) în Big Data- Generație, extracție și management din perspectiva Telco
- Cum se diferențiază analiza de date de moștenire
- In-house justificare a Big Data -Perspectivă Telco
- Introducere la Hadoop Ecosistem- familiaritate cu toate Hadoop instrumente cum ar fi Hive, Pig, SPARC –când și cum sunt utilizate pentru a rezolva problema Big Data
- Cum Big Data este extras pentru a analiza pentru instrumentul de analiză-cum Business Analysis’s pot reduce punctele lor de durere de colectare și de analiză a datelor prin abordarea integrată Hadoop dashboard
- Introducere de bază a analizei Insight, analizei de vizualizare și analizei predictive pentru Telco
- Analiza clienților Churn și Big Data-cum Big Data analiza pot reduce churnul clienților și insatisfacția clienților în studiile de caz Telco
- Analiza eșecurilor de rețea și a eșecurilor de serviciu din meta-data rețelei și IPDR
- Analiza financiară-fraudă, vase și estimarea ROI din vânzări și date operaționale
- Problema achiziției clienților - Marketingul țintă, segmentarea clienților și vânzările transversale din datele de vânzare
- Introducere și rezumat al tuturor produselor analitice Big Data și unde se potrivesc în spațiul analitic Telco
- Conclusie-cum să luați o abordare pas cu pas pentru a introduce Big Data Business Intelligence în organizația dvs.
Publicul țintă
- Operarea rețelei, managerii financiari, managerii CRM și managerii IT de top în biroul Telco CIO.
- Business Analiștii din Telco
- Administratori de birouri / analisti CFO
- Manageri de operare
- Managerii QA
Data Science for Big Data Analytics
35 oreDatele mari sunt seturi de date atât de voluminoase și complexe încât softurile tradiționale de aplicații de prelucrare a datelor nu sunt adecvate pentru a le trata. Provocările de date mari includ captarea datelor, stocarea datelor, analiza datelor, căutarea, partajarea, transferul, vizualizarea, interogarea, actualizarea și confidențialitatea informațiilor.
MATLAB Fundamentals, Data Science & Report Generation
35 oreÎn prima parte a acestui curs, vom aborda elementele de bază ale MATLAB și funcția sa atât ca limbaj, cât și ca platformă. În această discuție este inclusă o introducere în sintaxa MATLAB, matrice și matrici, vizualizarea datelor, dezvoltarea scripturilor și principiile orientate pe obiect.
În a doua parte, vom demonstra modul de utilizare a MATLAB pentru extragerea datelor, învățarea automată și analiza predictivă. Pentru a oferi participanților o perspectivă clară și practică a abordării și puterii MATLAB, vom face comparații între utilizarea MATLAB și utilizarea altor instrumente, cum ar fi foile de calcul, C, C++ și Visual Basic.
În a treia parte a cursului, participanții învață cum să își eficientizeze activitatea prin automatizarea prelucrării datelor și generării de rapoarte.
Pe parcursul cursului, participanții vor pune în practică ideile învățate prin exerciții practice într-un mediu de laborator. Până la sfârșitul cursului, participanții vor avea o înțelegere aprofundată a capacităților MATLAB și vor putea să le utilizeze pentru a rezolva probleme reale de știința datelor, precum și pentru a-și eficientiza activitatea prin automatizare.
Pe parcursul cursului vor fi efectuate evaluări pentru a măsura progresul.
Formatul cursului
- Cursul include exerciții teoretice și practice, inclusiv discuții de caz, inspectarea codului eșantion și implementarea practică.
Notă
- Sesiunile practice se vor baza pe șabloane de rapoarte de date de probă prestabilite. Dacă aveți cerințe specifice, vă rugăm să ne contactați pentru a aranja.
Jupyter for Data Science Teams
7 oreJupyter este un IDE interactiv și un mediu de calcul interactiv bazat pe web, cu sursă deschisă.
Acest curs de formare live (online sau la fața locului), condus de un instructor, prezintă ideea de dezvoltare colaborativă în știința datelor și demonstrează cum să se utilizeze Jupyter pentru a urmări și a participa în echipă la "ciclul de viață al unei idei de calcul". Acesta îi conduce pe participanți prin crearea unui proiect de exemplu de știință a datelor bazat pe partea superioară a ecosistemului Jupyter.
La finalul acestui curs de formare, participanții vor fi capabili să:
- Să instaleze și să configureze Jupyter, inclusiv crearea și integrarea unui depozit de echipă pe Git.
- Să utilizeze caracteristicile Jupyter, cum ar fi extensiile, widgeturile interactive, modul multiutilizator și altele pentru a permite colaborarea în cadrul proiectului.
- Să creeze, să partajeze și să organizeze Jupyter Notebooks cu membrii echipei.
- Alegeți din Scala, Python, R, pentru a scrie și executa coduri împotriva sistemelor de date mari, cum ar fi Apache Spark, toate prin intermediul interfeței Jupyter.
Formatul cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Jupyter Notebook suportă peste 40 de limbaje, inclusiv R, Python, Scala, Scala, Julia, etc. Pentru a personaliza acest curs în limba (limbile) pe care o (le) alegeți, vă rugăm să ne contactați pentru a aranja.
F# for Data Science
21 orePython Programming for Finance
35 orePython este un limbaj de programare care a câștigat o popularitate uriașă în industria financiară. Adoptat de cele mai mari bănci de investiții și fonduri speculative, este utilizat pentru a construi o gamă largă de aplicații financiare, de la programe de tranzacționare de bază până la sisteme de gestionare a riscurilor.
În cadrul acestei instruiri, instruite în direct, participanții vor învăța cum să folosească Python pentru a dezvolta aplicații practice pentru rezolvarea unui număr de probleme specifice legate de finanțe.
Până la sfârșitul acestui antrenament, participanții vor putea:
- Înțelegeți fundamentele Python programare Python
- Descărcați, instalați și întrețineți cele mai bune instrumente de dezvoltare pentru crearea de aplicații financiare în Python
- Selectați și utilizați cele mai potrivite pachete și tehnici de programare Python pentru organizarea, vizualizarea și analizarea datelor financiare din diverse surse (CSV, Excel , baze de date, web etc.)
- Construiți aplicații care rezolvă probleme legate de alocarea activelor, analiza riscurilor, performanța investițiilor și multe altele
- Depanarea, integrarea, implementarea și optimizarea unei aplicații Python
Public
- Dezvoltatori
- Analistii
- experti
Formatul cursului
- Partea de prelegere, o discuție parțială, exerciții și practici practice
Notă
- Această instruire își propune să ofere soluții pentru unele dintre problemele principale cu care se confruntă profesioniștii din finanțe. Cu toate acestea, dacă aveți un anumit subiect, instrument sau tehnică pe care doriți să o adăugați sau să o elaborați mai departe, vă rugăm să ne contactați pentru a vă aranja.
Data Science essential for Marketing/Sales professionals
21 oreAcest curs este destinat Marketing profesioniștilor în vânzări care intenționează să aprofundeze aplicarea științei datelor în Marketing/Vânzări. Cursul oferă o acoperire detaliată a diferitelor tehnici de știință a datelor utilizate pentru „upsale”, „cross-sale”, segmentarea pieței, branding și CLV.
Diferența dintre Marketing și vânzări - Cum este că vânzările și marketingul sunt diferite?
În cuvinte foarte simple, vânzările pot fi denumite un proces care se concentrează sau vizează indivizi sau grupuri mici. Marketing, pe de altă parte, vizează un grup mai mare sau publicul larg. Marketing include cercetarea (identificarea nevoilor clientului), dezvoltarea produselor (producerea de produse inovatoare) și promovarea produsului (prin reclame) și crearea conștientizării despre produs în rândul consumatorilor. Ca atare, marketingul înseamnă generarea de clienți potențiali sau perspective. Odată ce produsul este scos pe piață, este sarcina vânzătorului să convingă clientul să cumpere produsul. Vânzările înseamnă convertirea clienților potențiali sau potențialilor în achiziții și comenzi, în timp ce marketingul vizează termene mai lungi, vânzările se referă la obiective mai scurte.