CommencerCommencer gratuitement

Exécution des fichiers PySpark

Dans cet exercice, vous allez exécuter un fichier PySpark en utilisant spark-submit. Cet outil peut vous aider à soumettre votre demande à un cluster Spark.

Pour les besoins de cet exercice, vous allez travailler avec une instance locale de Spark fonctionnant sur 4 threads. Le fichier que vous devez soumettre se trouve à l'adresse suivante : /home/repl/spark-script.py. N'hésitez pas à lire le dossier :

cat /home/repl/spark-script.py

Vous pouvez utiliser spark-submit comme suit :

spark-submit \

  --master local[4] \

  /home/repl/spark-script.py

Qu'est-ce que cela donne ? Notez que l'obtention des résultats peut prendre quelques secondes.

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice