LoslegenKostenlos loslegen

Ein DataFrame cachen

Du hast die Aufgabe bekommen, mehrere Analyseoperationen auf einem DataFrame auszuführen. Du hast gelernt, dass Caching die Performance verbessern kann, wenn DataFrames wiederverwendet werden, und möchtest das anwenden.

Du arbeitest mit einem neuen Datensatz mit Informationen zu Flugabflügen. Er enthält möglicherweise doppelte Einträge und muss dedupliziert werden.

Der DataFrame departures_df ist definiert, aber es wurden noch keine Aktionen ausgeführt.

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Cache die eindeutigen Zeilen im DataFrame departures_df.
  • Führe eine Count-Abfrage auf departures_df aus und notiere, wie lange der Vorgang dauert.
  • Zähle die Zeilen erneut und beobachte die Abweichung in der Dauer bei einem gecachten DataFrame.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

start_time = time.time()

# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____

# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))

# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))
Code bearbeiten und ausführen