Mise en cache d'un DataFrame
On vous a confié une tâche qui nécessite l'exécution de plusieurs opérations d'analyse sur un DataFrame. Vous avez appris que la mise en cache peut améliorer les performances lors de la réutilisation des DataFrame et vous souhaitez la mettre en œuvre.
Vous allez travailler avec un nouvel ensemble de données composé d'informations sur les départs des compagnies aériennes. Il peut contenir des données répétitives et devra être dédupliqué.
Le DataFrame departures_df
est défini, mais aucune action n'a été effectuée.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Mettez en cache les lignes uniques du DataFrame
departures_df
. - Effectuez une requête de comptage sur
departures_df
, en notant la durée de l'opération. - Comptez à nouveau les lignes, en notant l'écart de temps d'un DataFrame mis en cache.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
start_time = time.time()
# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____
# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))
# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))