Een DataFrame cachen
Je hebt een taak gekregen waarbij je meerdere analysebewerkingen op een DataFrame moet uitvoeren. Je hebt geleerd dat cachen de prestaties kan verbeteren wanneer je DataFrames hergebruikt en je wilt dat hier toepassen.
Je werkt met een nieuwe gegevensset met informatie over vliegtuigvertrekken. Deze kan herhalende gegevens bevatten en moet ontdubbeld worden.
Het DataFrame departures_df is gedefinieerd, maar er zijn nog geen acties uitgevoerd.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Cache de unieke rijen in het DataFrame
departures_df. - Voer een count-query uit op
departures_dfen noteer hoe lang de bewerking duurt. - Tel de rijen nogmaals en let op het verschil in tijd bij een gecachet DataFrame.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
start_time = time.time()
# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____
# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))
# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))