PySpark-bestanden uitvoeren
In deze oefening ga je een PySpark-bestand uitvoeren met spark-submit. Met dit hulpprogramma kun je je applicatie indienen bij een Spark-cluster.
Voor deze oefening werk je met een lokale Spark-instantie die op 4 threads draait. Het bestand dat je moet indienen staat op /home/repl/spark-script.py. Lees het bestand gerust door:
cat /home/repl/spark-script.py
Je kunt spark-submit als volgt gebruiken:
spark-submit \
--master local[4] \
/home/repl/spark-script.py
Wat levert dit op? Houd er rekening mee dat het een paar seconden kan duren voordat je resultaten krijgt.
Deze oefening maakt deel uit van de cursus
Introductie tot Data Engineering
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen