CommencerCommencer gratuitement

Enregistrer un DataFrame au format Parquet

Avec Spark, vous commencez souvent avec des sources CSV, JSON ou autres. Cela offre beaucoup de flexibilité pour charger différents types de données, mais ce n’est pas un format optimal pour Spark. Le format Parquet est un stockage de données en colonnes, qui permet à Spark d’utiliser le predicate pushdown. Concrètement, Spark ne traite que les données nécessaires pour exécuter les opérations que vous définissez, plutôt que de lire l’ensemble du jeu de données. Cela donne à Spark plus de flexibilité pour accéder aux données et améliore souvent drastiquement les performances sur de grands volumes.

Dans cet exercice, nous allons créer un nouveau fichier Parquet puis traiter des données à partir de celui-ci.

L’objet spark ainsi que les DataFrames df1 et df2 ont été préparés pour vous.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Affichez le nombre de lignes de df1 et df2.
  • Combinez df1 et df2 dans un nouveau DataFrame nommé df3 avec la méthode union.
  • Enregistrez df3 dans un fichier parquet nommé AA_DFW_ALL.parquet.
  • Lisez le fichier AA_DFW_ALL.parquet et affichez le nombre de lignes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# View the row count of df1 and df2
print("df1 Count: %d" % df1.____())
print("df2 Count: %d" % ____.____())

# Combine the DataFrames into one
df3 = df1.union(df2)

# Save the df3 DataFrame in Parquet format
df3.____.____('AA_DFW_ALL.parquet', mode='overwrite')

# Read the Parquet file into a new DataFrame and run a count
print(spark.read.____('AA_DFW_ALL.parquet').count())
Modifier et exécuter le code