LoslegenKostenlos loslegen

PySpark-Dateien ausführen

In dieser Übung wirst du eine PySpark-Datei mit spark-submit ausführen. Dieses Tool kann dir dabei helfen, deine Anwendung an einen Spark-Cluster zu senden.

Für diese Übung arbeitest du mit einer lokalen Spark-Instanz, die auf 4 Threads läuft. Die Datei, die du einreichen musst, ist im Format /home/repl/spark-script.py. Schau dir die Datei gern an:

cat /home/repl/spark-script.py

So kannst du spark-submit nutzen:

spark-submit \

  --master local[4] \

  /home/repl/spark-script.py

Was wird hier ausgegeben? Beachte, dass es ein paar Sekunden dauern kann, bis du deine Ergebnisse bekommst.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Kurs anzeigen

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten