Création d'une SparkSession
Dans cet exercice, vous allez démarrer un cluster Spark local en utilisant tous les cœurs disponibles. Le cluster sera accessible via un objet SparkSession
.
La classe SparkSession
dispose d'un attribut builder
, qui est une instance de la classe Builder
. La classe Builder
expose trois méthodes importantes qui vous permettent de :
- indiquez l'emplacement du nœud maître ;
- nommez l'application (facultatif) ; et
SparkSession
récupérer une configuration existante ou, s'il n'y en a pas, en créer une nouvelle.
La classe « SparkSession
» dispose d'un attribut « version
» qui indique la version de Spark. Remarque : La version est également accessible via l'attribut __version__
du module pyspark
.
Pour en savoir plus sur l'SparkSession
, veu illez consulter le site.
Une fois que vous avez terminé d'utiliser le cluster, il est recommandé de le fermer afin de libérer ses ressources et de les rendre disponibles pour d'autres processus.
Notes :
- Il peut être utile de consulter les diapositives des leçons dans le panneau Slides situé à côté du shell IPython.
- La version de Spark utilisée dans l'exercice n' est pas la même que celle utilisée dans les leçons. La plateforme d'exercices a été mise à jour vers une version plus récente de Spark.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Veuillez importer la classe
SparkSession
à partir depyspark.sql
. - Créez un objet
SparkSession
connecté à un cluster local. Veuillez utiliser tous les cœurs disponibles. Veuillez nommer l'application «'test'
». - Utilisez l'attribut «
version
» de l'objet «SparkSession
» pour récupérer la version de Spark exécutée sur le cluster. Remarque : La version peut différer de celle utilisée dans la présentation (elle est mise à jour régulièrement). - Veuillez éteindre le cluster.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the SparkSession class
from ____ import ____
# Create SparkSession object
spark = SparkSession.builder \
.master(____) \
.____(____) \
.____()
# What version of Spark?
print(spark.____)
# Terminate the cluster
spark.____()