Performances de l'importation de fichiers
On vous a confié un grand ensemble de données à importer dans un DataFrame Spark. Vous souhaitez tester la différence de vitesse d'importation en divisant le fichier.
Vous disposez de deux types de fichiers : departures_full.txt.gz
et departures_xxx.txt.gz
où xxx est compris entre 000 et 013. Le même nombre de lignes est réparti entre chaque fichier.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Importez le fichier
departures_full.txt.gz
et les fichiersdepartures_xxx.txt.gz
dans des DataFrame distincts. - Exécutez un comptage sur chaque DataFrame et comparez les temps d'exécution.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)
# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))
start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))