Spark-Konfigurationen schreiben
Nachdem du dir einige der Spark-Konfigurationen auf deinem Cluster angesehen hast, möchtest du nun einige Einstellungen anpassen, um Spark auf deine Bedürfnisse abzustimmen. Du importierst ein paar Daten, um zu prüfen, dass deine Änderungen den Cluster beeinflusst haben.
Die Spark-Konfiguration ist zunächst auf den Standardwert von 200 Partitionen gesetzt.
Das spark-Objekt steht zur Verfügung. Eine Datei namens departures.txt.gz kann importiert werden. Ein initiales DataFrame mit den eindeutigen Zeilen aus departures.txt.gz ist als departures_df verfügbar.
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Speichere die Anzahl der Partitionen in
departures_dfin der Variablenbefore. - Ändere die Konfiguration
spark.sql.shuffle.partitionsauf 500 Partitionen. - Erstelle das DataFrame
departures_dfneu, indem du die eindeutigen Zeilen aus der departures-Datei liest. - Gib die Anzahl der Partitionen vor und nach der Konfigurationsänderung aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Store the number of partitions in variable
before = departures_df.____
# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)
# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____
# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)