CommencerCommencer gratuitement

Performances d’import de fichiers

Vous avez reçu un large ensemble de données à importer dans un DataFrame Spark. Vous souhaitez tester la différence de vitesse d’import en découpant le fichier.

Vous disposez de deux types de fichiers : departures_full.txt.gz et departures_xxx.txt.gzxxx va de 000 à 013. Le même nombre de lignes est réparti entre chaque fichier.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Importez le fichier departures_full.txt.gz et les fichiers departures_xxx.txt.gz dans des DataFrames distincts.
  • Exécutez un count sur chaque DataFrame et comparez les temps d’exécution.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)

# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))

start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))
Modifier et exécuter le code