Schița de curs

Fundamentele NiFi și a fluxului de date

  • Date în mișcare vs. date la loc: concepte și provocări
  • Arhitectura NiFi: nucleu, controlorul fluxului, originea datelor și anunțurile
  • Componentele cheie: procesatoare, conexiuni, controloare și origine

Contextul Big Data și integrarea

  • Rolul NiFi în ecosistemele Big Data (Hadoop, Kafka, depozitare cloud)
  • Prezentare generală a HDFS, MapReduce și alternative moderne
  • Cazuri de utilizare: inghițirea fluxului, transportul jurnalurilor, canalele de evenimente

Instalare, configurare și setup cluster

  • Instalarea NiFi pe nod simplu și în mod cluster
  • Configurarea clusterului: rolurile nodurilor, Zookeeper și echilibrarea sarcinii
  • Orchestarea implementărilor NiFi: folosirea Ansible, Docker sau Helm

Proiectarea și gestionarea fluxurilor de date

  • Rutare, filtrare, împărțire și combinarea fluxurilor
  • Configurarea procesatoarelor (InvokeHTTP, QueryRecord, PutDatabaseRecord, etc.)
  • Gestionarea schemei, îmbogățirii și transformărilor
  • Gestionarea erorilor, relațiile de retry și backpressure

Scenarii de integrare

  • Conectarea la baze de date, sisteme de mesagerie, API-uri REST
  • Streaming către sisteme de analiză: Kafka, Elasticsearch sau depozitare cloud
  • Integrarea cu Splunk, Prometheus sau canale de jurnalare

Monitorizare, recuperare și origine

  • Folosirea UI-ului NiFi, metricilor și vizualizatorului originii datelor
  • Proiectarea recuperării autonome și gestionării eșecurilor cu grace
  • Siguranța de backup, versiunarea fluxului și gestionarea schimbărilor

Optimizarea performanței și ajustările

  • Ajustarea JVM, memoriei heap, poolelor de thread-uri și parametrilor clusterului
  • Optimizarea proiectării fluxului pentru reducerea punctelor de strângere
  • Izolarea resurselor, prioritizarea fluxului și controlul debitului

Bune practici și guvernanță

  • Documentarea fluxului, standarde de denumire, proiectare modulară
  • Siguranță: TLS, autentificare, control de acces, criptarea datelor
  • Gestionarea schimbărilor, versiunarea, controlul bazat pe roluri și istoricul auditării

Depanare și gestionarea incidentelor

  • Probleme comune: blocările, pierderile de memorie, erorile procesatorului
  • Analiza jurnalurilor, diagnostica erorilor și investigarea cauzei fundamentale
  • Strategii de recuperare și rollback al fluxului

Laborator practic: Implementarea unui pipeline real de date

  • Construirea unui flux end-to-end: inghițire, transformare, livrare
  • Implementarea gestionării erorilor, backpressure și scalabilitatea
  • Testarea performanței și ajustarea pipeline-ului

Synthesizarea și următorii pași

Cerințe

  • Experiență cu linia de comandă Linux
  • Cunoștințe de bază privind rețelele și sistemele de date
  • Familiarizare cu conceptele de streaming de date sau ETL

Public țintă

  • Administratori de sisteme
  • Ingineri de date
  • Develozatori
  • Profesioniști DevOps
 21 ore

Numărul de participanți


Pret per participant

Mărturii (7)

Cursuri viitoare

Categorii înrudite