Spark-Konfigurationen schreiben

Nachdem du nun einige der Spark-Konfigurationen auf deinem Cluster überprüft hast, möchtest du einige Einstellungen ändern, um Spark auf deine Bedürfnisse abzustimmen. Du wirst einige Daten importieren, um zu überprüfen, ob sich deine Änderungen auf den Cluster ausgewirkt haben.

Die Spark-Konfiguration ist zunächst auf den Standardwert von 200 Partitionen eingestellt.

Das Objekt spark ist für die Nutzung verfügbar. Eine Datei mit dem Namen departures.txt.gz steht für den Import zur Verfügung. Ein anfänglicher DataFrame mit den eindeutigen Zeilen aus departures.txt.gz ist unter departures_df verfügbar.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Speichere die Anzahl der Partitionen in departures_df in der Variablen before.
Ändere die Konfiguration von spark.sql.shuffle.partitions auf 500 Partitionen.
Erstelle den DataFrame departures_df neu, indem du die einzelnen Zeilen aus der Abflugdatei liest.
Drucke die Anzahl der Partitionen vor und nach der Konfigurationsänderung aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Store the number of partitions in variable
before = departures_df.____

# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)

# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____

# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)

Code bearbeiten und ausführen