Ein DataFrame cachen

Du hast die Aufgabe bekommen, mehrere Analyseoperationen auf einem DataFrame auszuführen. Du hast gelernt, dass Caching die Performance verbessern kann, wenn DataFrames wiederverwendet werden, und möchtest das anwenden.

Du arbeitest mit einem neuen Datensatz mit Informationen zu Flugabflügen. Er enthält möglicherweise doppelte Einträge und muss dedupliziert werden.

Der DataFrame departures_df ist definiert, aber es wurden noch keine Aktionen ausgeführt.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Cache die eindeutigen Zeilen im DataFrame departures_df.
Führe eine Count-Abfrage auf departures_df aus und notiere, wie lange der Vorgang dauert.
Zähle die Zeilen erneut und beobachte die Abweichung in der Dauer bei einem gecachten DataFrame.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

start_time = time.time()

# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____

# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))

# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))

Code bearbeiten und ausführen