Écrire dans un fichier
Dans la vidéo, vous avez vu que les fichiers sont souvent chargés dans une base de données MPP telle que Redshift afin de les rendre disponibles pour l'analyse.
Le flux de travail typique consiste à écrire les données dans des fichiers de données en colonnes. Ces fichiers de données sont ensuite téléchargés vers un système de stockage et de là, ils peuvent être copiés dans l'entrepôt de données. Dans le cas d'Amazon Redshift, le système de stockage serait S3, par exemple.
La première étape consiste à écrire un fichier au bon format. Pour cet exercice, vous choisirez le format de fichier Apache Parquet.
Il y a un PySpark DataFrame appelé film_sdf
et un pandas DataFrame appelé film_pdf
dans votre espace de travail.
Cet exercice fait partie du cours
Introduction à l'ingénierie des données
Instructions
- Écrivez le DataFrame
pandas
film_pdf
dans un fichier parquet appelé"films_pdf.parquet"
. - Ecrire le DataFrame PySpark
film_sdf
dans un fichier parquet appelé"films_sdf.parquet"
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")