Curs de pregatire Procesarea Datelor în Timp Real și Fluxul de Date
Prezentarea Cursului
Acest curs oferă o introducere practică și structurată în construirea sistemelor de flux de date în timp real. Acoperă conceptele de bază, modelele de arhitectură și instrumentele industriale utilizate pentru procesarea continuă a datelor la scară largă. Participanții vor învăța cum să proiecteze, să implementeze și să optimizeze conducte de flux folosind cadre moderne. Cursul progresează de la idei fundamentale la aplicații practice, permițând cursanților să construiască cu încredere soluții în timp real gata pentru producție.
Formatul Cursului
• Sesiuni conduse de instructori cu explicații ghidate
• Parcurgeri de concepte cu exemple din lumea reală
• Demonstrații practice și exerciții de codare
• Laboratoare progresive aliniate pe subiecte zilnice
• Discuții interactive și întrebări și răspunsuri
Obiectivele Cursului
• Înțelegerea conceptelor de flux de date în timp real și a arhitecturii sistemelor
• Diferențierea între modelele de procesare a datelor în loturi și fluxuri
• Proiectarea de conducte de flux scalabile și tolerante la erori
• Lucrul cu instrumente și cadre distribuite pentru fluxuri
• Aplicarea procesării în timpul evenimentelor, a tehnicilor de segmentare și a operațiilor cu stare
• Construirea și optimizarea soluțiilor de date în timp real pentru cazuri de utilizare din afaceri
Schița de curs
Programa Cursului - Ziua 1
• Introducere în conceptele de flux de date
• Bazele procesării în loturi față de cea în timp real
• Concepte de bază ale arhitecturii bazate pe evenimente
• Cazuri comune de utilizare în industrie
• Prezentare generală a ecosistemului de fluxuri
Ziua 2
• Modele de proiectare a arhitecturii de fluxuri
• Bazele sistemelor de mesagerie distribuite
• Producători și consumatori
• Subiecte, partiții și flux de date
• Strategii de ingerare a datelor
Ziua 3
• Concepte și cadre de procesare a fluxurilor
• Timpul evenimentului față de timpul de procesare
• Tehnici de segmentare și cazuri de utilizare
• Procesarea fluxurilor cu stare
• Bazele toleranței la erori și ale verificării punctelor de control
Ziua 4
• Transformarea datelor în conductele de flux
• ETL și ELT în sistemele în timp real
• Gestionarea și evoluția schemei
• Îmbinări și îmbogățirea fluxurilor
• Introducere în serviciile de flux bazate pe cloud
Ziua 5
• Monitorizarea și observabilitatea în sistemele de flux
• Bazele securității și controlului accesului
• Reglarea și optimizarea performanței
• Revizuirea proiectării conductelor de la cap la capăt
• Cazuri de utilizare din lumea reală, cum ar fi detectarea fraudelor și procesarea IoT
Cursurile publice necesita 5+ participanti
Curs de pregatire Procesarea Datelor în Timp Real și Fluxul de Date - Rezervare
Curs de pregatire Procesarea Datelor în Timp Real și Fluxul de Date - Solicitare
Procesarea Datelor în Timp Real și Fluxul de Date - Cerere de consultanta
Mărturii (1)
Exerciții practice. Clasa ar fi trebuit să dureze 5 zile, dar cele 3 zile au ajutat la clarificarea multor întrebări pe care le aveam din cauza lucrului cu NiFi.
James - BHG Financial
Curs - Apache NiFi for Administrators
Tradus de catre o masina
Cursuri viitoare
Cursuri înrudite
Apache Iceberg Avansat
21 OreAceastă formare condusă de un instructor, live în România (online sau la fața locului) este destinată profesioniștilor avansați în domeniul datelor care doresc să optimizeze fluxurile de procesare a datelor, să asigure integritatea datelor și să implementeze soluții robuste de tip data lakehouse care să poată gestiona complexitatea aplicațiilor moderne de big data.
La finalul acestei formări, participanții vor putea:
- Să înțeleagă în profunzime arhitectura Iceberg, inclusiv gestionarea metadatelor și structura fișierelor.
- Să configureze Iceberg pentru performanță optimă în diverse medii și să-l integreze cu multiple motoare de procesare a datelor.
- Să gestioneze tabele Iceberg la scară largă, să efectueze schimbări complexe de scheme și să gestioneze evoluția partițiilor.
- Să stăpânească tehnici de optimizare a performanței interogărilor și a eficienței scanării datelor pentru seturi de date mari.
- Să implementeze mecanisme pentru a asigura consistența datelor, să gestioneze garanțiile tranzacționale și să facă față defecțiunilor în medii distribuite.
Fundamentele Apache Iceberg
14 OreAcest training condus de un instructor, live în România (online sau la fața locului), este destinat profesioniștilor de date de nivel începător care doresc să dobândească cunoștințele și abilitățile necesare pentru a utiliza eficient Apache Iceberg în gestionarea seturilor de date la scară largă, asigurarea integrității datelor și optimizarea fluxurilor de procesare a datelor.
La finalul acestui training, participanții vor putea:
- Să înțeleagă în profunzime arhitectura, caracteristicile și beneficiile Apache Iceberg.
- Să învețe despre formatele de tabele, partiționarea, evoluția schemei și capacitățile de time travel.
- Să instaleze și să configureze Apache Iceberg în diferite medii.
- Să creeze, să gestioneze și să manipuleze tabele Iceberg.
- Să înțeleagă procesul de migrare a datelor de la alte formate de tabele la Iceberg.
Analiza Big Data cu Google Colab și Apache Spark
14 OreAcest training condus de un instructor, live în România (online sau la fața locului), este destinat specialiștilor și inginerilor de date de nivel intermediar care doresc să utilizeze Google Colab și Apache Spark pentru procesarea și analiza datelor mari.
La sfârșitul acestui training, participanții vor putea:
- Să configureze un mediu de lucru pentru date mari folosind Google Colab și Spark.
- Să proceseze și să analizeze eficient seturi mari de date cu Apache Spark.
- Să vizualizeze date mari într-un mediu colaborativ.
- Să integreze Apache Spark cu instrumente bazate pe cloud.
Inteligența de Business pe Date Mari pentru Agențiile Guvernamentale
35 OreAvansurile tehnologice și cantitatea tot mai mare de informații transformă modul în care se desfășoară afacerile în multe industrii, inclusiv în sectorul guvernamental. Generarea de date guvernamentale și ratele de arhivare digitală sunt în creștere datorită creșterii rapide a dispozitivelor și aplicațiilor mobile, senzorilor și dispozitivelor inteligente, soluțiilor de cloud computing și portalelor pentru cetățeni. Pe măsură ce informațiile digitale se extind și devin mai complexe, gestionarea, procesarea, stocarea, securitatea și eliminarea informațiilor devin, de asemenea, mai complexe. Noi instrumente de captură, căutare, descoperire și analiză ajută organizațiile să obțină informații valoroase din datele lor nestructurate. Piața guvernamentală se află într-un punct de cotitură, realizând că informația este un activ strategic, iar guvernul trebuie să protejeze, să valorifice și să analizeze atât informațiile structurate, cât și pe cele nestructurate pentru a servi mai bine și a îndeplini cerințele misiunii. Pe măsură ce liderii guvernamentali se străduiesc să dezvolte organizații bazate pe date pentru a îndeplini cu succes misiunile, ei pun bazele pentru corelarea dependențelor dintre evenimente, oameni, procese și informații.
Soluțiile guvernamentale de mare valoare vor fi create din amestecul celor mai disruptice tehnologii:
- Dispozitive și aplicații mobile
- Servicii de cloud
- Tehnologii și rețele de business social
- Date Mari și analitice
Datele Mari sunt una dintre soluțiile inteligente ale industriei și permit guvernului să ia decizii mai bune acționând pe baza modelelor dezvăluite prin analiza unor volume mari de date — legate și nelegate, structurate și nestructurate.
Dar realizarea acestor realizări necesită mult mai mult decât simpla acumulare a unor cantități masive de date. „Înțelegerea acestor volume de Date Mari necesită instrumente și tehnologii de ultimă oră care să analizeze și să extragă cunoștințe utile din fluxuri vaste și diverse de informații”, au scris Tom Kalil și Fen Zhao de la Biroul pentru Știință și Tehnologie al Casei Albe într-un post pe blogul OSTP.
Casa Albă a făcut un pas către ajutarea agențiilor în găsirea acestor tehnologii atunci când a înființat Inițiativa Națională de Cercetare și Dezvoltare pe Date Mari în 2012. Inițiativa a inclus peste 200 de milioane de dolari pentru a valorifica la maxim explozia Datelor Mari și instrumentele necesare pentru a le analiza.
Provocările pe care le prezintă Datele Mari sunt aproape la fel de descurajante pe cât este de încurajatoare promisiunea lor. Stocarea eficientă a datelor este una dintre aceste provocări. Ca întotdeauna, bugetele sunt limitate, așa că agențiile trebuie să minimizeze costul pe megabyte al stocării și să păstreze datele ușor accesibile, astfel încât utilizatorii să le poată obține atunci când doresc și în modul de care au nevoie. Salvarea unor cantități masive de date amplifică provocarea.
Analiza eficientă a datelor este o altă provocare majoră. Multe agenții utilizează instrumente comerciale care le permit să sifice printre muntii de date, identificând tendințe care le pot ajuta să funcționeze mai eficient. (Un studiu recent realizat de MeriTalk a constatat că executivii IT federali consideră că Datele Mari ar putea ajuta agențiile să economisească peste 500 de miliarde de dolari, îndeplinind, în același timp, obiectivele misiunii.).
Instrumentele personalizate pentru Date Mari permit, de asemenea, agențiilor să răspundă nevoii de a-și analiza datele. De exemplu, Grupul de Analiză Computațională a Datelor de la Laboratorul Național Oak Ridge a pus la dispoziția altor agenții sistemul său de analiză a datelor Piranha. Sistemul a ajutat cercetătorii medicali să găsească o legătură care poate alerta medicii despre aneurismele aortice înainte ca acestea să se declanșeze. Este, de asemenea, utilizat pentru sarcini mai mundane, cum ar fi sortarea CV-urilor pentru a conecta candidații cu managerii de angajare.
O Introducere Practică în Analiza Datelor și Big Data - 3 Zile
21 OreParticipanții care finalizează acest training condus de un instructor, în format live, în România vor dobândi o înțelegere practică și aplicabilă în lumea reală a Big Data și a tehnologiilor, metodelor și instrumentelor asociate.
Participanții vor avea ocazia să pună în practică aceste cunoștințe prin exerciții practice. Interacțiunea în grup și feedback-ul instructorului constituie o componentă importantă a cursului.
Cursul începe cu o introducere în conceptele de bază ale Big Data, apoi trece la limbajele de programare și metodele utilizate pentru efectuarea Analizei Datelor. În final, vom discuta despre instrumentele și infrastructura care permit stocarea Big Data, Prelucrarea Distribuită și Scalabilitatea.
Big Data și Analiză Avansată
42 OreBig Data și Analiză Avansată reprezintă aplicarea unor tehnici și instrumente sofisticate pentru a analiza seturi de date mari și complexe, în scopul obținerii de informații acționabile și de luare a deciziilor strategice.
Această instruire condusă de un instructor, live (online sau la fața locului), este destinată profesioniștilor avansați în domeniul datelor care doresc să valorifice metode analitice de ultimă oră și tehnologii de big data pentru analize predictive, prescriptive și în timp real.
La finalul acestei instruiri, participanții vor putea:
- Proiecta și implementa fluxuri de procesare a datelor la scară largă pentru date structurate și nestructurate.
- Aplica tehnici avansate de învățare automată și învățare profundă pe seturi de date masive.
- Folosi cadre de calcul distribuit pentru analize în timp real și fluxuri de date.
- Integra analiza big data în sistemele de inteligență de afaceri și de luare a deciziilor.
Formatul cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu de laborator live.
Opțiuni de personalizare a cursului
- Pentru a solicita o instruire personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Apache NiFi pentru Administratori
21 OreApache NiFi este o platformă open-source, bazată pe flux, pentru integrarea datelor și procesarea evenimentelor. Permite rutarea, transformarea și medierea automată a datelor în timp real între sisteme disparate, cu o interfață web și control detaliat.
Această instruire condusă de un instructor, în format live (pe fața locului sau la distanță), este destinată administratorilor și inginerilor de nivel intermediar care doresc să implementeze, să gestioneze, să securizeze și să optimizeze fluxurile de date NiFi în medii de producție.
La finalul acestei instruiri, participanții vor putea:
- Să instaleze, să configureze și să întrețină clustere Apache NiFi.
- Să proiecteze și să gestioneze fluxuri de date din surse și destinații variate.
- Să implementeze automatizarea fluxurilor, rutarea și logica de transformare.
- Să optimizeze performanța, să monitorizeze operațiunile și să depaneze probleme.
Formatul Cursului
- Prezentare interactivă cu discuții despre arhitecturi din lumea reală.
- Laboratoare practice: construirea, implementarea și gestionarea fluxurilor.
- Exerciții bazate pe scenarii într-un mediu de laborator live.
Opțiuni de Personalizare a Cursului
- Pentru a solicita o instruire personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
PySpark și Machine Learning
21 OreAcest training oferă o introducere practică în construirea de fluxuri de lucru scalabile de procesare a datelor și Machine Learning folosind PySpark. Participanții vor învăța cum funcționează Apache Spark în ecosistemele moderne de Big Data și cum să proceseze eficient seturi mari de date folosind principiile calculului distribuit.
Fundamentele Apache Spark
21 OreAcest training condus de un instructor, live în România (online sau la fața locului) este destinat inginerilor care doresc să configureze și să implementeze sistemul Apache Spark pentru procesarea unor volume foarte mari de date.
La sfârșitul acestui training, participanții vor putea:
- Instala și configura Apache Spark.
- Procesare și analiză rapidă a seturilor de date foarte mari.
- Înțelege diferența dintre Apache Spark și Hadoop MapReduce și când să folosească fiecare.
- Integrarea Apache Spark cu alte instrumente de învățare automată.
Administrarea Apache Spark
35 OreAcest training condus de un instructor, live în România (online sau la fața locului) este destinat administratorilor de sistem de la nivel începător până la intermediar care doresc să implementeze, să întrețină și să optimizeze clustere Spark.
La finalul acestui training, participanții vor putea:
- Instala și configura Apache Spark în diverse medii.
- Gestiona resursele clusterului și monitoriza aplicațiile Spark.
- Optimiza performanța clusterelor Spark.
- Implementa măsuri de securitate și asigura disponibilitate ridicată.
- Depana și rezolva probleme comune ale Spark.
Apache Spark în Cloud
21 OreCurba de învățare a Apache Spark crește încet la început, fiind nevoie de mult efort pentru a obține primele rezultate. Acest curs își propune să treacă peste această parte dificilă inițială. După parcurgerea acestui curs, participanții vor înțelege elementele de bază ale Apache Spark, vor face distincția clară între RDD și DataFrame, vor învăța API-urile Python și Scala, vor înțelege executoarele și sarcinile etc. De asemenea, urmând cele mai bune practici, acest curs se concentrează puternic pe implementarea în cloud, Databricks și AWS. Studenții vor înțelege, de asemenea, diferențele dintre AWS EMR și AWS Glue, unul dintre cele mai recente servicii Spark oferite de AWS.
AUDIENȚĂ:
Inginer de Date, DevOps, Specialist în Știința Datelor
Python și Spark pentru Big Data (PySpark)
21 OreÎn acest training condus de un instructor, în format live în România, participanții vor învăța cum să folosească împreună Python și Spark pentru a analiza date mari, lucrând la exerciții practice.
La finalul acestui training, participanții vor fi capabili să:
- Învețe cum să folosească Spark cu Python pentru a analiza date mari.
- Lucreze la exerciții care imită cazuri din lumea reală.
- Folosească diferite instrumente și tehnici pentru analiza datelor mari folosind PySpark.
Python, Spark și Hadoop pentru Big Data
21 OreAcest training condus de un instructor, live în România (online sau la fața locului) este destinat dezvoltatorilor care doresc să utilizeze și să integreze Spark, Hadoop și Python pentru a procesa, analiza și transforma seturi de date mari și complexe.
La sfârșitul acestui training, participanții vor putea:
- Să configureze mediul necesar pentru a începe procesarea datelor mari cu Spark, Hadoop și Python.
- Să înțeleagă caracteristicile, componentele de bază și arhitectura Spark și Hadoop.
- Să învețe cum să integreze Spark, Hadoop și Python pentru procesarea datelor mari.
- Să exploreze instrumentele din ecosistemul Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka și Flume).
- Să construiască sisteme de recomandare bazate pe filtrare colaborativă asemănătoare cu cele de la Netflix, YouTube, Amazon, Spotify și Google.
- Să utilizeze Apache Mahout pentru a scala algoritmii de învățare automată.
Stratio: Modulele Rocket și Intelligence cu PySpark
14 OreStratio este o platformă centrată pe date care integrează big data, inteligența artificială și guvernanța într-o singură soluție. Modulele sale Rocket și Intelligence permit explorarea rapidă a datelor, transformarea și analiza avansată în medii enterprise.
Această sesiune de formare condusă de un instructor (online sau la fața locului) este destinată profesioniștilor de date de nivel intermediar care doresc să utilizeze eficient modulele Rocket și Intelligence din Stratio cu PySpark, concentrându-se pe structuri de buclă, funcții definite de utilizator și logica avansată a datelor.
La finalul acestei formări, participanții vor putea:
- Să navigheze și să lucreze în platforma Stratio folosind modulele Rocket și Intelligence.
- Să aplice PySpark în contextul ingerării, transformării și analizei datelor.
- Să utilizeze bucle și logică condițională pentru a controla fluxurile de date și sarcinile de inginerie a caracteristicilor.
- Să creeze și să gestioneze funcții definite de utilizator (UDF) pentru operații reutilizabile de date în PySpark.
Formatul cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Pentru a solicita o formare personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.