Créer une session SparkSession
Dans cet exercice, vous allez mettre en place un cluster Spark local en utilisant tous les cœurs disponibles. Le cluster sera accessible via un objet SparkSession.
La classe SparkSession possède un attribut builder, qui est une instance de la classe Builder. La classe Builder expose trois méthodes importantes qui vous permettent :
- spécifier l'emplacement du nœud maître ;
- donner un nom à la demande (facultatif) ; et
- récupérer un site
SparkSessionexistant ou, s'il n'y en a pas, en créer un nouveau.
La classe SparkSession possède un attribut version qui donne la version de Spark. Remarque : La version est également accessible via l'attribut __version__ du module pyspark.
Pour en savoir plus sur SparkSession , cliquez ici.
Une fois que vous en avez terminé avec la grappe, il est conseillé de l'arrêter, ce qui libérera ses ressources et les rendra disponibles pour d'autres processus.
Notes :
- Il peut être utile de revoir les diapositives des leçons dans le panneau Diapositives à côté de l'IPython Shell.
- La version de Spark dans l'exercice n' est pas la même que dans les leçons. La plateforme d'exercice a été mise à jour vers une version plus récente de Spark.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez la classe
SparkSessionà partir depyspark.sql. - Créez un objet
SparkSessionconnecté à un cluster local. Utilisez tous les cœurs disponibles. Nommez l'application'test'. - Utilisez l'attribut
versionsur l'objetSparkSessionpour récupérer la version de Spark en cours d'exécution sur le cluster. Remarque : La version peut être différente de celle utilisée dans la présentation (elle est mise à jour de temps en temps). - Arrêtez le cluster.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the SparkSession class
from ____ import ____
# Create SparkSession object
spark = SparkSession.builder \
.master(____) \
.____(____) \
.____()
# What version of Spark?
print(spark.____)
# Terminate the cluster
spark.____()