Performances de l'importation de fichiers

On vous a confié un grand ensemble de données à importer dans un DataFrame Spark. Vous souhaitez tester la différence de vitesse d'importation en divisant le fichier.

Vous disposez de deux types de fichiers : departures_full.txt.gz et departures_xxx.txt.gz où xxx est compris entre 000 et 013. Le même nombre de lignes est réparti entre chaque fichier.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

Importez le fichier departures_full.txt.gz et les fichiers departures_xxx.txt.gz dans des DataFrame distincts.
Exécutez un comptage sur chaque DataFrame et comparez les temps d'exécution.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)

# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))

start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))

Modifier et exécuter le code