Curs de pregatire Integrare Talend Big Data
Talend Open Studio for Big Data este un instrument open source ETL pentru procesarea datelor mari. Include un mediu de dezvoltare pentru a interacționa cu sursele și destinațiile de date mari și pentru a rula job-uri fără a fi nevoie să scrieți cod.
Acest training condus de un instructor, live (online sau la fața locului) este destinat persoanelor tehnice care doresc să implementeze Talend Open Studio for Big Data pentru a simplifica procesul de citire și procesare a datelor mari.
La finalul acestui training, participanții vor putea:
- Instala și configura Talend Open Studio for Big Data.
- Se conecta la sisteme de date mari precum Cloudera, HortonWorks, MapR, Amazon EMR și Apache.
- Înțelege și configura componentele și conectorii pentru date mari din Open Studio.
- Configura parametri pentru a genera automat cod MapReduce.
- Folosi interfața drag-and-drop a Open Studio pentru a rula job-uri Hadoop.
- Prototipa fluxuri de date mari.
- Automatiza proiecte de integrare a datelor mari.
Formatul Cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu de laborator live.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Schița de curs
Introducere
Prezentare generală a caracteristicilor și arhitecturii "Open Studio for Big Data"
Configurarea Open Studio for Big Data
Navigarea în interfața de utilizator
Înțelegerea componentelor și conectorilor pentru date mari
Conectarea la un cluster Hadoop
Citirea și scrierea datelor
Procesarea datelor cu Hive și MapReduce
Analizarea rezultatelor
Îmbunătățirea calității datelor mari
Construirea unui flux de date mari
Gestionarea utilizatorilor, grupurilor, rolurilor și proiectelor
Implementarea Open Studio în producție
Monitorizarea Open Studio
Depanarea
Rezumat și concluzii
Cerințe
- Înțelegerea bazelor de date relaționale
- Înțelegerea depozitelor de date
- Înțelegerea conceptelor ETL (Extract, Transform, Load)
Audiență
- Profesioniști în business intelligence
- Profesioniști în baze de date
- Dezvoltatori SQL
- Dezvoltatori ETL
- Arhitecți de soluții
- Arhitecți de date
- Profesioniști în depozite de date
- Administratori și integratiori de sisteme
Cursurile publice necesita 5+ participanti
Curs de pregatire Integrare Talend Big Data - Rezervare
Curs de pregatire Integrare Talend Big Data - Solicitare
Integrare Talend Big Data - Cerere de consultanta
Mărturii (1)
Exerciții practice. Clasa ar fi trebuit să dureze 5 zile, dar cele 3 zile au ajutat la clarificarea multor întrebări pe care le aveam din cauza lucrului cu NiFi.
James - BHG Financial
Curs - Apache NiFi for Administrators
Tradus de catre o masina
Cursuri viitoare
Cursuri înrudite
Apache Iceberg Avansat
21 OreAceastă formare condusă de un instructor, live în România (online sau la fața locului) este destinată profesioniștilor avansați în domeniul datelor care doresc să optimizeze fluxurile de procesare a datelor, să asigure integritatea datelor și să implementeze soluții robuste de tip data lakehouse care să poată gestiona complexitatea aplicațiilor moderne de big data.
La finalul acestei formări, participanții vor putea:
- Să înțeleagă în profunzime arhitectura Iceberg, inclusiv gestionarea metadatelor și structura fișierelor.
- Să configureze Iceberg pentru performanță optimă în diverse medii și să-l integreze cu multiple motoare de procesare a datelor.
- Să gestioneze tabele Iceberg la scară largă, să efectueze schimbări complexe de scheme și să gestioneze evoluția partițiilor.
- Să stăpânească tehnici de optimizare a performanței interogărilor și a eficienței scanării datelor pentru seturi de date mari.
- Să implementeze mecanisme pentru a asigura consistența datelor, să gestioneze garanțiile tranzacționale și să facă față defecțiunilor în medii distribuite.
Fundamentele Apache Iceberg
14 OreAcest training condus de un instructor, live în România (online sau la fața locului), este destinat profesioniștilor de date de nivel începător care doresc să dobândească cunoștințele și abilitățile necesare pentru a utiliza eficient Apache Iceberg în gestionarea seturilor de date la scară largă, asigurarea integrității datelor și optimizarea fluxurilor de procesare a datelor.
La finalul acestui training, participanții vor putea:
- Să înțeleagă în profunzime arhitectura, caracteristicile și beneficiile Apache Iceberg.
- Să învețe despre formatele de tabele, partiționarea, evoluția schemei și capacitățile de time travel.
- Să instaleze și să configureze Apache Iceberg în diferite medii.
- Să creeze, să gestioneze și să manipuleze tabele Iceberg.
- Să înțeleagă procesul de migrare a datelor de la alte formate de tabele la Iceberg.
Analiza Big Data cu Google Colab și Apache Spark
14 OreAcest training condus de un instructor, live în România (online sau la fața locului), este destinat specialiștilor și inginerilor de date de nivel intermediar care doresc să utilizeze Google Colab și Apache Spark pentru procesarea și analiza datelor mari.
La sfârșitul acestui training, participanții vor putea:
- Să configureze un mediu de lucru pentru date mari folosind Google Colab și Spark.
- Să proceseze și să analizeze eficient seturi mari de date cu Apache Spark.
- Să vizualizeze date mari într-un mediu colaborativ.
- Să integreze Apache Spark cu instrumente bazate pe cloud.
Apache NiFi pentru Administratori
21 OreApache NiFi este o platformă open-source, bazată pe flux, pentru integrarea datelor și procesarea evenimentelor. Permite rutarea, transformarea și medierea automată a datelor în timp real între sisteme disparate, cu o interfață web și control detaliat.
Această instruire condusă de un instructor, în format live (pe fața locului sau la distanță), este destinată administratorilor și inginerilor de nivel intermediar care doresc să implementeze, să gestioneze, să securizeze și să optimizeze fluxurile de date NiFi în medii de producție.
La finalul acestei instruiri, participanții vor putea:
- Să instaleze, să configureze și să întrețină clustere Apache NiFi.
- Să proiecteze și să gestioneze fluxuri de date din surse și destinații variate.
- Să implementeze automatizarea fluxurilor, rutarea și logica de transformare.
- Să optimizeze performanța, să monitorizeze operațiunile și să depaneze probleme.
Formatul Cursului
- Prezentare interactivă cu discuții despre arhitecturi din lumea reală.
- Laboratoare practice: construirea, implementarea și gestionarea fluxurilor.
- Exerciții bazate pe scenarii într-un mediu de laborator live.
Opțiuni de Personalizare a Cursului
- Pentru a solicita o instruire personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
PySpark și Machine Learning
21 OreAcest training oferă o introducere practică în construirea de fluxuri de lucru scalabile de procesare a datelor și Machine Learning folosind PySpark. Participanții vor învăța cum funcționează Apache Spark în ecosistemele moderne de Big Data și cum să proceseze eficient seturi mari de date folosind principiile calculului distribuit.
Fundamentele Apache Spark
21 OreAcest training condus de un instructor, live în România (online sau la fața locului) este destinat inginerilor care doresc să configureze și să implementeze sistemul Apache Spark pentru procesarea unor volume foarte mari de date.
La sfârșitul acestui training, participanții vor putea:
- Instala și configura Apache Spark.
- Procesare și analiză rapidă a seturilor de date foarte mari.
- Înțelege diferența dintre Apache Spark și Hadoop MapReduce și când să folosească fiecare.
- Integrarea Apache Spark cu alte instrumente de învățare automată.
Administrarea Apache Spark
35 OreAcest training condus de un instructor, live în România (online sau la fața locului) este destinat administratorilor de sistem de la nivel începător până la intermediar care doresc să implementeze, să întrețină și să optimizeze clustere Spark.
La finalul acestui training, participanții vor putea:
- Instala și configura Apache Spark în diverse medii.
- Gestiona resursele clusterului și monitoriza aplicațiile Spark.
- Optimiza performanța clusterelor Spark.
- Implementa măsuri de securitate și asigura disponibilitate ridicată.
- Depana și rezolva probleme comune ale Spark.
Apache Spark în Cloud
21 OreCurba de învățare a Apache Spark crește încet la început, fiind nevoie de mult efort pentru a obține primele rezultate. Acest curs își propune să treacă peste această parte dificilă inițială. După parcurgerea acestui curs, participanții vor înțelege elementele de bază ale Apache Spark, vor face distincția clară între RDD și DataFrame, vor învăța API-urile Python și Scala, vor înțelege executoarele și sarcinile etc. De asemenea, urmând cele mai bune practici, acest curs se concentrează puternic pe implementarea în cloud, Databricks și AWS. Studenții vor înțelege, de asemenea, diferențele dintre AWS EMR și AWS Glue, unul dintre cele mai recente servicii Spark oferite de AWS.
AUDIENȚĂ:
Inginer de Date, DevOps, Specialist în Știința Datelor
Python și Spark pentru Big Data (PySpark)
21 OreÎn acest training condus de un instructor, în format live în România, participanții vor învăța cum să folosească împreună Python și Spark pentru a analiza date mari, lucrând la exerciții practice.
La finalul acestui training, participanții vor fi capabili să:
- Învețe cum să folosească Spark cu Python pentru a analiza date mari.
- Lucreze la exerciții care imită cazuri din lumea reală.
- Folosească diferite instrumente și tehnici pentru analiza datelor mari folosind PySpark.
Python, Spark și Hadoop pentru Big Data
21 OreAcest training condus de un instructor, live în România (online sau la fața locului) este destinat dezvoltatorilor care doresc să utilizeze și să integreze Spark, Hadoop și Python pentru a procesa, analiza și transforma seturi de date mari și complexe.
La sfârșitul acestui training, participanții vor putea:
- Să configureze mediul necesar pentru a începe procesarea datelor mari cu Spark, Hadoop și Python.
- Să înțeleagă caracteristicile, componentele de bază și arhitectura Spark și Hadoop.
- Să învețe cum să integreze Spark, Hadoop și Python pentru procesarea datelor mari.
- Să exploreze instrumentele din ecosistemul Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka și Flume).
- Să construiască sisteme de recomandare bazate pe filtrare colaborativă asemănătoare cu cele de la Netflix, YouTube, Amazon, Spotify și Google.
- Să utilizeze Apache Mahout pentru a scala algoritmii de învățare automată.
Stratio: Modulele Rocket și Intelligence cu PySpark
14 OreStratio este o platformă centrată pe date care integrează big data, inteligența artificială și guvernanța într-o singură soluție. Modulele sale Rocket și Intelligence permit explorarea rapidă a datelor, transformarea și analiza avansată în medii enterprise.
Această sesiune de formare condusă de un instructor (online sau la fața locului) este destinată profesioniștilor de date de nivel intermediar care doresc să utilizeze eficient modulele Rocket și Intelligence din Stratio cu PySpark, concentrându-se pe structuri de buclă, funcții definite de utilizator și logica avansată a datelor.
La finalul acestei formări, participanții vor putea:
- Să navigheze și să lucreze în platforma Stratio folosind modulele Rocket și Intelligence.
- Să aplice PySpark în contextul ingerării, transformării și analizei datelor.
- Să utilizeze bucle și logică condițională pentru a controla fluxurile de date și sarcinile de inginerie a caracteristicilor.
- Să creeze și să gestioneze funcții definite de utilizator (UDF) pentru operații reutilizabile de date în PySpark.
Formatul cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Pentru a solicita o formare personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Talend Administration Center (TAC)
14 OreAcest training condus de un instructor, live în România (online sau la fața locului) este destinat administratorilor de sistem, oamenilor de știință de date și analiștilor de afaceri care doresc să configureze Talend Administration Center pentru a implementa și gestiona rolurile și sarcinile organizației.
La finalul acestui training, participanții vor putea:
- Instala și configura Talend Administration Center.
- Înțelege și implementa elementele de bază ale gestionării Talend.
- Construi, implementa și rula proiecte sau sarcini de afaceri în Talend.
- Monitoriza securitatea seturilor de date și dezvolta rutine de afaceri bazate pe cadrul TAC.
- Obține o înțelegere mai largă a aplicațiilor de big data.
Talend Data Stewardship
14 OreAcest training condus de un instructor, live în România (online sau la fața locului), este destinat analiștilor de date de la nivel începător până la intermediar, care doresc să-și aprofundeze înțelegerea și abilitățile în gestionarea și îmbunătățirea calității datelor folosind Talend Data Stewardship.
La finalul acestui training, participanții vor putea:
- Obține o înțelegere comprehensivă a rolului administrării datelor în menținerea calității datelor.
- Utiliza Talend Data Stewardship pentru gestionarea sarcinilor legate de calitatea datelor.
- Crea, atribui și gestiona sarcini în Talend Data Stewardship, inclusiv personalizarea fluxurilor de lucru.
- Utiliza capabilitățile de raportare și monitorizare ale instrumentului pentru a urmări calitatea datelor și eforturile de administrare a datelor.
Talend Open Studio for ESB
21 OreÎn acest training condus de un instructor în România, participanții vor învăța cum să utilizeze Talend Open Studio for ESB pentru a crea, conecta, media și gestiona servicii și interacțiunile acestora.
La finalul acestui training, participanții vor putea
- Integra, îmbunătăți și livra tehnologii ESB ca pachete unice în diverse medii de implementare.
- Înțelege și utilizează cele mai folosite componente ale Talend Open Studio.
- Integra orice aplicație, bază de date, API sau servicii web.
- Integra fără probleme sisteme și aplicații eterogene.
- Încorpora biblioteci de cod Java existente pentru a extinde proiectele.
- Folosi componente și cod din comunitate pentru a extinde proiectele.
- Integra rapid sisteme, aplicații și surse de date într-un mediu Eclipse bazat pe drag-and-drop.
- Reduce timpul de dezvoltare și costurile de întreținere prin generarea de cod optimizat și reutilizabil.