Exécuter des fichiers PySpark
Dans cet exercice, vous allez exécuter un fichier PySpark avec spark-submit. Cet outil vous permet de soumettre votre application à un cluster Spark.
Pour les besoins de cet exercice, vous allez utiliser une instance locale de Spark fonctionnant sur 4 threads. Le fichier à soumettre se trouve dans /home/repl/spark-script.py. N’hésitez pas à lire le fichier :
cat /home/repl/spark-script.py
Vous pouvez utiliser spark-submit comme suit :
spark-submit \
--master local[4] \
/home/repl/spark-script.py
Qu’est-ce que cela affiche ? Notez que l’obtention des résultats peut prendre quelques secondes.
Cet exercice fait partie du cours
Introduction au data engineering
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice