PySpark-Dateien ausführen
In dieser Übung wirst du eine PySpark-Datei mit spark-submit
ausführen. Dieses Tool kann dir dabei helfen, deine Anwendung an einen Spark-Cluster zu senden.
Für diese Übung arbeitest du mit einer lokalen Spark-Instanz, die auf 4 Threads läuft. Die Datei, die du einreichen musst, ist im Format /home/repl/spark-script.py
. Schau dir die Datei gern an:
cat /home/repl/spark-script.py
So kannst du spark-submit
nutzen:
spark-submit \
--master local[4] \
/home/repl/spark-script.py
Was wird hier ausgegeben? Beachte, dass es ein paar Sekunden dauern kann, bis du deine Ergebnisse bekommst.
Diese Übung ist Teil des Kurses
Einführung in das Data Engineering
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
