PySpark-Dateien ausführen
In dieser Übung wirst du eine PySpark-Datei mit spark-submit
ausführen. Mit diesem Tool kannst du deine Bewerbung an einen Spark-Cluster übermitteln.
Für diese Übung arbeitest du mit einer lokalen Spark-Instanz, die mit 4 Threads läuft. Die Datei, die du einreichen musst, ist in /home/repl/spark-script.py
. Du kannst die Datei gerne lesen:
cat /home/repl/spark-script.py
Du kannst spark-submit
wie folgt verwenden:
spark-submit \
--master local[4] \
/home/repl/spark-script.py
Was kommt dabei heraus? Beachte, dass es ein paar Sekunden dauern kann, bis du deine Ergebnisse erhältst.
Diese Übung ist Teil des Kurses
Einführung in die Datentechnik
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
