PySpark-Dateien ausführen
In dieser Übung wirst du eine PySpark-Datei mit spark-submit ausführen. Dieses Tool kann dir dabei helfen, deine Anwendung an einen Spark-Cluster zu senden.
Für diese Übung arbeitest du mit einer lokalen Spark-Instanz, die auf 4 Threads läuft. Die Datei, die du einreichen musst, ist im Format /home/repl/spark-script.py. Schau dir die Datei gern an:
cat /home/repl/spark-script.py
So kannst du spark-submit nutzen:
spark-submit \
--master local[4] \
/home/repl/spark-script.py
Was wird hier ausgegeben? Beachte, dass es ein paar Sekunden dauern kann, bis du deine Ergebnisse bekommst.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in das Data Engineering</Kurs>Interaktive praktische Übung
Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis
Übung starten