LoslegenKostenlos starten

PySpark-Dateien ausführen

In dieser Übung wirst du eine PySpark-Datei mit spark-submit ausführen. Dieses Tool kann dir dabei helfen, deine Anwendung an einen Spark-Cluster zu senden.

Für diese Übung arbeitest du mit einer lokalen Spark-Instanz, die auf 4 Threads läuft. Die Datei, die du einreichen musst, ist im Format /home/repl/spark-script.py. Schau dir die Datei gern an:

cat /home/repl/spark-script.py

So kannst du spark-submit nutzen:

spark-submit \

  --master local[4] \

  /home/repl/spark-script.py

Was wird hier ausgegeben? Beachte, dass es ein paar Sekunden dauern kann, bis du deine Ergebnisse bekommst.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in das Data Engineering</Kurs>
Kurs ansehen

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Übung starten