LoslegenKostenlos loslegen

Zwischenspeichern eines DataFrame

Du hast eine Aufgabe erhalten, bei der du mehrere Analyseoperationen für einen DataFrame durchführen musst. Du hast gelernt, dass Caching die Leistung bei der Wiederverwendung von DataFrames verbessern kann, und möchtest es umsetzen.

Du wirst mit einem neuen Datensatz arbeiten, der aus Abflugdaten von Fluggesellschaften besteht. Sie kann sich wiederholende Daten enthalten und muss von Duplikaten befreit werden.

Der DataFrame departures_df ist definiert, aber es wurden noch keine Aktionen durchgeführt.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Zwischenspeichern der eindeutigen Zeilen im DataFrame departures_df.
  • Führe eine Zählabfrage auf departures_df durch und notiere, wie lange der Vorgang dauert.
  • Zähle die Zeilen erneut und achte dabei auf die zeitliche Abweichung eines zwischengespeicherten DataFrames.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

start_time = time.time()

# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____

# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))

# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))
Code bearbeiten und ausführen