CommencerCommencer gratuitement

Création d'une SparkSession

Dans cet exercice, vous allez démarrer un cluster Spark local en utilisant tous les cœurs disponibles. Le cluster sera accessible via un objet SparkSession.

La classe SparkSession dispose d'un attribut builder, qui est une instance de la classe Builder. La classe Builder expose trois méthodes importantes qui vous permettent de :

  • indiquez l'emplacement du nœud maître ;
  • nommez l'application (facultatif) ; et
  • SparkSession récupérer une configuration existante ou, s'il n'y en a pas, en créer une nouvelle.

La classe « SparkSession » dispose d'un attribut « version » qui indique la version de Spark. Remarque : La version est également accessible via l'attribut __version__ du module pyspark.

Pour en savoir plus sur l'SparkSession, veu illez consulter le site.

Une fois que vous avez terminé d'utiliser le cluster, il est recommandé de le fermer afin de libérer ses ressources et de les rendre disponibles pour d'autres processus.

Notes :

  1. Il peut être utile de consulter les diapositives des leçons dans le panneau Slides situé à côté du shell IPython.
  2. La version de Spark utilisée dans l'exercice n' est pas la même que celle utilisée dans les leçons. La plateforme d'exercices a été mise à jour vers une version plus récente de Spark.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Veuillez importer la classe SparkSession à partir de pyspark.sql.
  • Créez un objet SparkSession connecté à un cluster local. Veuillez utiliser tous les cœurs disponibles. Veuillez nommer l'application « 'test' ».
  • Utilisez l'attribut « version » de l'objet « SparkSession » pour récupérer la version de Spark exécutée sur le cluster. Remarque : La version peut différer de celle utilisée dans la présentation (elle est mise à jour régulièrement).
  • Veuillez éteindre le cluster.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the SparkSession class
from ____ import ____

# Create SparkSession object
spark = SparkSession.builder \
                    .master(____) \
                    .____(____) \
                    .____()

# What version of Spark?
print(spark.____)

# Terminate the cluster
spark.____()
Modifier et exécuter le code