Een DataFrame cachen

Je hebt een taak gekregen waarbij je meerdere analysebewerkingen op een DataFrame moet uitvoeren. Je hebt geleerd dat cachen de prestaties kan verbeteren wanneer je DataFrames hergebruikt en je wilt dat hier toepassen.

Je werkt met een nieuwe gegevensset met informatie over vliegtuigvertrekken. Deze kan herhalende gegevens bevatten en moet ontdubbeld worden.

Het DataFrame departures_df is gedefinieerd, maar er zijn nog geen acties uitgevoerd.

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Bekijk cursus

Oefeninstructies

Cache de unieke rijen in het DataFrame departures_df.
Voer een count-query uit op departures_df en noteer hoe lang de bewerking duurt.
Tel de rijen nogmaals en let op het verschil in tijd bij een gecachet DataFrame.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

start_time = time.time()

# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____

# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))

# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))

Code bewerken en uitvoeren