CommencerCommencer gratuitement

Mise en cache d'un DataFrame

On vous a confié une tâche qui nécessite l'exécution de plusieurs opérations d'analyse sur un DataFrame. Vous avez appris que la mise en cache peut améliorer les performances lors de la réutilisation des DataFrame et vous souhaitez la mettre en œuvre.

Vous allez travailler avec un nouvel ensemble de données composé d'informations sur les départs des compagnies aériennes. Il peut contenir des données répétitives et devra être dédupliqué.

Le DataFrame departures_df est défini, mais aucune action n'a été effectuée.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Mettez en cache les lignes uniques du DataFrame departures_df.
  • Effectuez une requête de comptage sur departures_df, en notant la durée de l'opération.
  • Comptez à nouveau les lignes, en notant l'écart de temps d'un DataFrame mis en cache.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

start_time = time.time()

# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____

# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))

# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))
Modifier et exécuter le code