Pipeline rapide
Avant d'analyser des données plus complexes, votre responsable aimerait voir un exemple de pipeline simple comprenant les étapes de base. Pour cet exemple, vous voudrez ingérer un fichier de données, filtrer quelques lignes, y ajouter une colonne ID, puis l'écrire sous forme de données JSON.
Le contexte spark
est défini et la bibliothèque pyspark.sql.functions
est appelée F
comme il est d'usage.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Importez le fichier
2015-departures.csv.gz
dans un DataFrame. Notez que l'en-tête est déjà défini. - Filtrez le DataFrame pour qu'il ne contienne que les vols dont la durée est supérieure à 0 minute. Utilisez l'index de la colonne, et non son nom (n'oubliez pas d'utiliser
.printSchema()
pour voir les noms et l'ordre des colonnes). - Ajoutez une colonne ID.
- Écrivez le fichier sous la forme d'un document JSON nommé
output.json
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the data to a DataFrame
departures_df = spark.____(____, header=____)
# Remove any duration of 0
departures_df = departures_df.____(____)
# Add an ID column
departures_df = departures_df.____('id', ____)
# Write the file out to JSON format
____.write.____(____, mode='overwrite')