Zwischenspeichern eines DataFrame
Du hast eine Aufgabe erhalten, bei der du mehrere Analyseoperationen für einen DataFrame durchführen musst. Du hast gelernt, dass Caching die Leistung bei der Wiederverwendung von DataFrames verbessern kann, und möchtest es umsetzen.
Du wirst mit einem neuen Datensatz arbeiten, der aus Abflugdaten von Fluggesellschaften besteht. Sie kann sich wiederholende Daten enthalten und muss von Duplikaten befreit werden.
Der DataFrame departures_df
ist definiert, aber es wurden noch keine Aktionen durchgeführt.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Zwischenspeichern der eindeutigen Zeilen im DataFrame
departures_df
. - Führe eine Zählabfrage auf
departures_df
durch und notiere, wie lange der Vorgang dauert. - Zähle die Zeilen erneut und achte dabei auf die zeitliche Abweichung eines zwischengespeicherten DataFrames.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
start_time = time.time()
# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____
# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))
# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))