Esecuzione di file PySpark
In questo esercizio eseguirai un file PySpark usando spark-submit. Questo strumento ti permette di inviare la tua applicazione a un cluster Spark.
Per questo esercizio lavorerai con un'istanza Spark locale che gira su 4 thread. Il file da inviare si trova in /home/repl/spark-script.py. Puoi leggerne il contenuto:
cat /home/repl/spark-script.py
Puoi usare spark-submit in questo modo:
spark-submit \
--master local[4] \
/home/repl/spark-script.py
Cosa produce in output? Nota che potrebbero volerci alcuni secondi per ottenere i risultati.
Questo esercizio fa parte del corso
Introduzione al Data Engineering
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio