Écrire des configurations Spark
Maintenant que vous avez passé en revue certaines des configurations de Spark sur votre cluster, vous souhaitez modifier certains des paramètres pour adapter Spark à vos besoins. Vous allez importer des données pour vérifier que vos modifications ont bien affecté le cluster.
La configuration de Spark est initialement définie sur la valeur par défaut de 200 partitions.
L'objet spark
peut être utilisé. Un fichier nommé departures.txt.gz
est disponible pour l'importation. Un DataFrame initial contenant les lignes distinctes de departures.txt.gz
est disponible sous departures_df
.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Enregistrez le nombre de partitions dans
departures_df
dans la variablebefore
. - Modifiez la configuration de
spark.sql.shuffle.partitions
pour passer à 500 partitions. - Recréez le DataFrame
departures_df
en lisant les lignes distinctes du fichier des départs. - Imprimez le nombre de partitions avant et après le changement de configuration.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Store the number of partitions in variable
before = departures_df.____
# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)
# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____
# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)