Apache Spark ist ein Framework zur verteilten Verarbeitung großer Datenmengen. In diesem Seminar lernen Sie die Funktionsweise sowie die zugrundeliegenden Konzepte von Spark kennen und bekommen einen Überblick über die wichtigsten Spark-Komponenten und die Architektur einer Spark-Applikation. In praktischen Übungen wenden Sie das Erlernte an und schreiben Ihre ersten eigenen Spark-Jobs in Python. Unter anderem verwenden Sie dabei Spark Core (das grundlegende Framework für die parallele Verarbeitung in Spark) und analysieren Daten mit Spark SQL. Weiterhin lernen Sie die wichtigsten Konfigurationen für die Ausführung von Spark Jobs auf einem lokalen System oder in einem Hadoop / YARN Cluster kennen. Des Weiteren erhalten Sie eine kurze Einführung in die Bibliotheken für Streaming (Spark Streaming), Machine Learning (MLlib) und Graph-Verarbeitung (GraphX).
Inhalte
-----------
- Einführung in Spark
- Spark Core
- Spark-Architektur
- Spark SQL
- Administration
- Spark Streaming
- MLlib
- GraphX
Zielgruppe
Anwendungsentwickler, Data Engineers, Data Scientists, Systemintegratoren, IT-Architekten, IT-Consultants
Voraussetzung
Teilnahme an den Seminaren "Python Programmierung" (P-PYTH-01) und "Hadoop Grundlagen" (HADOOP-01) oder gleichwertige Kenntnisse