Écrire des configurations Spark
Maintenant que vous avez passé en revue certaines configurations Spark sur votre cluster, vous souhaitez modifier quelques paramètres pour adapter Spark à vos besoins. Vous allez importer des données afin de vérifier que vos changements ont bien un impact sur le cluster.
La configuration Spark est initialement définie sur la valeur par défaut de 200 partitions.
L’objet spark est disponible. Un fichier nommé departures.txt.gz est prêt à être importé. Un DataFrame initial contenant les lignes distinctes de departures.txt.gz est disponible sous le nom departures_df.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Stockez le nombre de partitions de
departures_dfdans la variablebefore. - Modifiez la configuration
spark.sql.shuffle.partitionsà 500 partitions. - Recréez le DataFrame
departures_dfen lisant les lignes distinctes du fichier des départs. - Affichez le nombre de partitions avant et après la modification de la configuration.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Store the number of partitions in variable
before = departures_df.____
# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)
# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____
# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)