Cursuri de pregatire Unified Batch and Stream Processing with Apache Beam

ID de curs

beam

Durata

14 ore (usually 2 days including breaks)

Cerințe

  • Experience with Python Programming.
  • Experience with the Linux command line.

Audience

  • Developers

Sinoptic

Apache Beam este un model de programare unificat, open source, pentru definirea și executarea conductelor paralele de procesare a datelor. Puterea sa constă în capacitatea sa de a rula conducte de loturi și de streaming, execuția fiind realizată de unul dintre back-end-urile de procesare distribuite acceptate de Beam: Apache Apex , Apache Flink , Apache Spark și Go ogle Cloud Dataflow. Apache Beam este utilă pentru sarcinile ETL (Extract, Transform și Load), cum ar fi mutarea datelor între diferite suporturi de stocare și surse de date, transformarea datelor într-un format mai dorit și încărcarea datelor într-un nou sistem.

În acest training, instruit în direct (la fața locului sau la distanță), participanții vor învăța cum să implementeze SDK-urile Apache Beam într-o Java sau Python care definește o conductă de prelucrare a datelor pentru descompunerea unui set de date mari în bucăți mai mici pentru o prelucrare independentă și paralelă .

Până la sfârșitul acestui antrenament, participanții vor putea:

  • Instalați și configurați Apache Beam .
  • Utilizați un singur model de programare pentru a efectua atât procesarea lotului, cât și fluxul, pentru a elimina Java lor Java sau Python .
  • Executați conducte în mai multe medii.

Formatul cursului

  • Partea de prelegere, o discuție parțială, exerciții și practici practice

Notă

  • Acest curs va fi disponibil Scala în viitor. Vă rugăm să ne contactați pentru a vă aranja.

Machine Translated

Schița de curs

Introduction

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm and Flink

Installing and Configuring Apache Beam

Overview of Apache Beam Features and Architecture

  • Beam Model, SDKs, Beam Pipeline Runners
  • Distributed processing back-ends

Understanding the Apache Beam Programming Model

  • How a pipeline is executed

Running a sample pipeline

  • Preparing a WordCount pipeline
  • Executing the Pipeline locally

Designing a Pipeline

  • Planning the structure, choosing the transforms, and determining the input and output methods

Creating the Pipeline

  • Writing the driver program and defining the pipeline
  • Using Apache Beam classes
  • Data sets, transforms, I/O, data encoding, etc.

Executing the Pipeline

  • Executing the pipeline locally, on remote machines, and on a public cloud
  • Choosing a runner
  • Runner-specific configurations

Testing and Debugging Apache Beam

  • Using type hints to emulate static typing
  • Managing Python Pipeline Dependencies

Processing Bounded and Unbounded Datasets

  • Windowing and Triggers

Making Your Pipelines Reusable and Maintainable

Create New Data Sources and Sinks

  • Apache Beam Source and Sink API

Integrating Apache Beam with other Big Data Systems

  • Apache Hadoop, Apache Spark, Apache Kafka

Troubleshooting

Summary and Conclusion

Mărturii

★★★★★
★★★★★

Categorii inrudite

Reduceri pentru cursuri

Newsletter Oferte Cursuri

Respectăm confidențialitatea adresei dvs. de email. Nu vom transmite sau vinde adresa altor părți. Puteți să schimbați preferințele sau să vă dezabonați complet în orice moment.

Câțiva dintre clienții noștri

is growing fast!

We are looking to expand our presence in Romania!

As a Business Development Manager you will:

  • expand business in Romania
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!