Écrire des configurations Spark

Maintenant que vous avez passé en revue certaines des configurations de Spark sur votre cluster, vous souhaitez modifier certains des paramètres pour adapter Spark à vos besoins. Vous allez importer des données pour vérifier que vos modifications ont bien affecté le cluster.

La configuration de Spark est initialement définie sur la valeur par défaut de 200 partitions.

L'objet spark peut être utilisé. Un fichier nommé departures.txt.gz est disponible pour l'importation. Un DataFrame initial contenant les lignes distinctes de departures.txt.gz est disponible sous departures_df.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

Enregistrez le nombre de partitions dans departures_df dans la variable before.
Modifiez la configuration de spark.sql.shuffle.partitions pour passer à 500 partitions.
Recréez le DataFrame departures_df en lisant les lignes distinctes du fichier des départs.
Imprimez le nombre de partitions avant et après le changement de configuration.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Store the number of partitions in variable
before = departures_df.____

# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)

# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____

# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)

Modifier et exécuter le code