Aan de slagGa gratis aan de slag

PySpark-bestanden uitvoeren

In deze oefening ga je een PySpark-bestand uitvoeren met spark-submit. Met dit hulpprogramma kun je je applicatie indienen bij een Spark-cluster.

Voor deze oefening werk je met een lokale Spark-instantie die op 4 threads draait. Het bestand dat je moet indienen staat op /home/repl/spark-script.py. Lees het bestand gerust door:

cat /home/repl/spark-script.py

Je kunt spark-submit als volgt gebruiken:

spark-submit \
  --master local[4] \
  /home/repl/spark-script.py

Wat levert dit op? Houd er rekening mee dat het een paar seconden kan duren voordat je resultaten krijgt.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen