CommencerCommencer gratuitement

Écrire dans un fichier

Dans la vidéo, vous avez vu que les fichiers sont souvent chargés dans une base de données MPP telle que Redshift afin de les rendre disponibles pour l'analyse.

Le flux de travail typique consiste à écrire les données dans des fichiers de données en colonnes. Ces fichiers de données sont ensuite téléchargés vers un système de stockage et de là, ils peuvent être copiés dans l'entrepôt de données. Dans le cas d'Amazon Redshift, le système de stockage serait S3, par exemple.

La première étape consiste à écrire un fichier au bon format. Pour cet exercice, vous choisirez le format de fichier Apache Parquet.

Il y a un PySpark DataFrame appelé film_sdf et un pandas DataFrame appelé film_pdf dans votre espace de travail.

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

Afficher le cours

Instructions

  • Écrivez le DataFrame pandas film_pdf dans un fichier parquet appelé "films_pdf.parquet".
  • Ecrire le DataFrame PySpark film_sdf dans un fichier parquet appelé "films_sdf.parquet".

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Modifier et exécuter le code