CommencerCommencer gratuitement

Exécuter des fichiers PySpark

Dans cet exercice, vous allez exécuter un fichier PySpark avec spark-submit. Cet outil vous permet de soumettre votre application à un cluster Spark.

Pour les besoins de cet exercice, vous allez utiliser une instance locale de Spark fonctionnant sur 4 threads. Le fichier à soumettre se trouve dans /home/repl/spark-script.py. N’hésitez pas à lire le fichier :

cat /home/repl/spark-script.py

Vous pouvez utiliser spark-submit comme suit :

spark-submit \
  --master local[4] \
  /home/repl/spark-script.py

Qu’est-ce que cela affiche ? Notez que l’obtention des résultats peut prendre quelques secondes.

Cet exercice fait partie du cours

Introduction au data engineering

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice