Exécution des fichiers PySpark
Dans cet exercice, vous allez exécuter un fichier PySpark en utilisant spark-submit
. Cet outil peut vous aider à soumettre votre demande à un cluster Spark.
Pour les besoins de cet exercice, vous allez travailler avec une instance locale de Spark fonctionnant sur 4 threads. Le fichier que vous devez soumettre se trouve à l'adresse suivante : /home/repl/spark-script.py
. N'hésitez pas à lire le dossier :
cat /home/repl/spark-script.py
Vous pouvez utiliser spark-submit
comme suit :
spark-submit \
--master local[4] \
/home/repl/spark-script.py
Qu'est-ce que cela donne ? Notez que l'obtention des résultats peut prendre quelques secondes.
Cet exercice fait partie du cours
Introduction à l'ingénierie des données
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
