LoslegenKostenlos loslegen

Spark-Konfigurationen schreiben

Nachdem du dir einige der Spark-Konfigurationen auf deinem Cluster angesehen hast, möchtest du nun einige Einstellungen anpassen, um Spark auf deine Bedürfnisse abzustimmen. Du importierst ein paar Daten, um zu prüfen, dass deine Änderungen den Cluster beeinflusst haben.

Die Spark-Konfiguration ist zunächst auf den Standardwert von 200 Partitionen gesetzt.

Das spark-Objekt steht zur Verfügung. Eine Datei namens departures.txt.gz kann importiert werden. Ein initiales DataFrame mit den eindeutigen Zeilen aus departures.txt.gz ist als departures_df verfügbar.

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Speichere die Anzahl der Partitionen in departures_df in der Variablen before.
  • Ändere die Konfiguration spark.sql.shuffle.partitions auf 500 Partitionen.
  • Erstelle das DataFrame departures_df neu, indem du die eindeutigen Zeilen aus der departures-Datei liest.
  • Gib die Anzahl der Partitionen vor und nach der Konfigurationsänderung aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Store the number of partitions in variable
before = departures_df.____

# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)

# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____

# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)
Code bearbeiten und ausführen