Écrire dans un fichier
Dans la vidéo, vous avez vu que les fichiers sont souvent chargés dans une base de données MPP comme Redshift afin de les rendre disponibles pour l’analyse.
Le flux de travail typique consiste à écrire les données dans des fichiers colonnes. Ces fichiers sont ensuite téléversés dans un système de stockage et, à partir de là, copiés dans l’entrepôt de données. Dans le cas d’Amazon Redshift, le système de stockage serait par exemple S3.
La première étape consiste à écrire un fichier au bon format. Pour cet exercice, vous allez choisir le format de fichier Apache Parquet.
Un DataFrame PySpark nommé film_sdf et un DataFrame pandas nommé film_pdf sont disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Introduction au data engineering
Instructions
- Écrivez le DataFrame
pandasfilm_pdfdans un fichier parquet nommé"films_pdf.parquet". - Écrivez le DataFrame PySpark
film_sdfdans un fichier parquet nommé"films_sdf.parquet".
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")