CommencerCommencer gratuitement

Écrire des configurations Spark

Maintenant que vous avez passé en revue certaines configurations Spark sur votre cluster, vous souhaitez modifier quelques paramètres pour adapter Spark à vos besoins. Vous allez importer des données afin de vérifier que vos changements ont bien un impact sur le cluster.

La configuration Spark est initialement définie sur la valeur par défaut de 200 partitions.

L’objet spark est disponible. Un fichier nommé departures.txt.gz est prêt à être importé. Un DataFrame initial contenant les lignes distinctes de departures.txt.gz est disponible sous le nom departures_df.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Stockez le nombre de partitions de departures_df dans la variable before.
  • Modifiez la configuration spark.sql.shuffle.partitions à 500 partitions.
  • Recréez le DataFrame departures_df en lisant les lignes distinctes du fichier des départs.
  • Affichez le nombre de partitions avant et après la modification de la configuration.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Store the number of partitions in variable
before = departures_df.____

# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)

# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____

# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)
Modifier et exécuter le code