Spark-Konfigurationen schreiben
Nachdem du nun einige der Spark-Konfigurationen auf deinem Cluster überprüft hast, möchtest du einige Einstellungen ändern, um Spark auf deine Bedürfnisse abzustimmen. Du wirst einige Daten importieren, um zu überprüfen, ob sich deine Änderungen auf den Cluster ausgewirkt haben.
Die Spark-Konfiguration ist zunächst auf den Standardwert von 200 Partitionen eingestellt.
Das Objekt spark
ist für die Nutzung verfügbar. Eine Datei mit dem Namen departures.txt.gz
steht für den Import zur Verfügung. Ein anfänglicher DataFrame mit den eindeutigen Zeilen aus departures.txt.gz
ist unter departures_df
verfügbar.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Speichere die Anzahl der Partitionen in
departures_df
in der Variablenbefore
. - Ändere die Konfiguration von
spark.sql.shuffle.partitions
auf 500 Partitionen. - Erstelle den DataFrame
departures_df
neu, indem du die einzelnen Zeilen aus der Abflugdatei liest. - Drucke die Anzahl der Partitionen vor und nach der Konfigurationsänderung aus.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Store the number of partitions in variable
before = departures_df.____
# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)
# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____
# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)