Schița de curs
Introducere
- Prezentare generală a caracteristicilor și arhitecturii Spark și Hadoop
- Înțelegerea big data
- Python noțiuni de bază de programare
Noțiuni introductive
- Configurarea Python, Spark și Hadoop
- Înțelegerea structurilor de date în Python
- Înțelegerea API-ului PySpark
- Înțelegerea HDFS și MapReduce
Integrarea Spark și Hadoop cu Python
- Implementarea Spark RDD în Python
- Prelucrarea datelor utilizând MapReduce
- Crearea de seturi de date distribuite în HDFS
Machine Learning cu Spark MLlib
Prelucrarea Big Data cu Spark Streaming
Lucrul cu sistemele de recomandare
Lucrul cu Kafka, Sqoop, Kafka și Flume
Apache Mahout cu Spark și Hadoop
Depanare
Rezumat și etapele următoare
Cerințe
- Experiență cu Spark și Hadoop
- Python experiență în programare
Audiență
- Științifici de date
- Dezvoltatorii
Mărturii (3)
The fact that we were able to take with us most of the information/course/presentation/exercises done, so that we can look over them and perhaps redo what we didint understand first time or improve what we already did.
Raul Mihail Rat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
I liked that it managed to lay the foundations of the topic and go to some quite advanced exercises. Also provided easy ways to write/test the code.
Ionut Goga - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
The live examples