Ein DataFrame cachen
Du hast die Aufgabe bekommen, mehrere Analyseoperationen auf einem DataFrame auszuführen. Du hast gelernt, dass Caching die Performance verbessern kann, wenn DataFrames wiederverwendet werden, und möchtest das anwenden.
Du arbeitest mit einem neuen Datensatz mit Informationen zu Flugabflügen. Er enthält möglicherweise doppelte Einträge und muss dedupliziert werden.
Der DataFrame departures_df ist definiert, aber es wurden noch keine Aktionen ausgeführt.
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Cache die eindeutigen Zeilen im DataFrame
departures_df. - Führe eine Count-Abfrage auf
departures_dfaus und notiere, wie lange der Vorgang dauert. - Zähle die Zeilen erneut und beobachte die Abweichung in der Dauer bei einem gecachten DataFrame.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
start_time = time.time()
# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____
# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))
# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))