CommencerCommencer gratuitement

Créer une session SparkSession

Dans cet exercice, vous allez mettre en place un cluster Spark local en utilisant tous les cœurs disponibles. Le cluster sera accessible via un objet SparkSession.

La classe SparkSession possède un attribut builder, qui est une instance de la classe Builder. La classe Builder expose trois méthodes importantes qui vous permettent :

  • spécifier l'emplacement du nœud maître ;
  • donner un nom à la demande (facultatif) ; et
  • récupérer un site SparkSession existant ou, s'il n'y en a pas, en créer un nouveau.

La classe SparkSession possède un attribut version qui donne la version de Spark. Remarque : La version est également accessible via l'attribut __version__ du module pyspark.

Pour en savoir plus sur SparkSession , cliquez ici.

Une fois que vous en avez terminé avec la grappe, il est conseillé de l'arrêter, ce qui libérera ses ressources et les rendra disponibles pour d'autres processus.

Notes :

  1. Il peut être utile de revoir les diapositives des leçons dans le panneau Diapositives à côté de l'IPython Shell.
  2. La version de Spark dans l'exercice n' est pas la même que dans les leçons. La plateforme d'exercice a été mise à jour vers une version plus récente de Spark.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe SparkSession à partir de pyspark.sql.
  • Créez un objet SparkSession connecté à un cluster local. Utilisez tous les cœurs disponibles. Nommez l'application 'test'.
  • Utilisez l'attribut version sur l'objet SparkSession pour récupérer la version de Spark en cours d'exécution sur le cluster. Remarque : La version peut être différente de celle utilisée dans la présentation (elle est mise à jour de temps en temps).
  • Arrêtez le cluster.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the SparkSession class
from ____ import ____

# Create SparkSession object
spark = SparkSession.builder \
                    .master(____) \
                    .____(____) \
                    .____()

# What version of Spark?
print(spark.____)

# Terminate the cluster
spark.____()
Modifier et exécuter le code