CommencerCommencer gratuitement

Écrire dans un fichier

Dans la vidéo, vous avez vu que les fichiers sont souvent chargés dans une base de données MPP comme Redshift afin de les rendre disponibles pour l’analyse.

Le flux de travail typique consiste à écrire les données dans des fichiers colonnes. Ces fichiers sont ensuite téléversés dans un système de stockage et, à partir de là, copiés dans l’entrepôt de données. Dans le cas d’Amazon Redshift, le système de stockage serait par exemple S3.

La première étape consiste à écrire un fichier au bon format. Pour cet exercice, vous allez choisir le format de fichier Apache Parquet.

Un DataFrame PySpark nommé film_sdf et un DataFrame pandas nommé film_pdf sont disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Introduction au data engineering

Afficher le cours

Instructions

  • Écrivez le DataFrame pandas film_pdf dans un fichier parquet nommé "films_pdf.parquet".
  • Écrivez le DataFrame PySpark film_sdf dans un fichier parquet nommé "films_sdf.parquet".

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Modifier et exécuter le code