Pipeline rapide

Avant d'analyser des données plus complexes, votre responsable aimerait voir un exemple de pipeline simple comprenant les étapes de base. Pour cet exemple, vous voudrez ingérer un fichier de données, filtrer quelques lignes, y ajouter une colonne ID, puis l'écrire sous forme de données JSON.

Le contexte spark est défini et la bibliothèque pyspark.sql.functions est appelée F comme il est d'usage.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

Importez le fichier 2015-departures.csv.gz dans un DataFrame. Notez que l'en-tête est déjà défini.
Filtrez le DataFrame pour qu'il ne contienne que les vols dont la durée est supérieure à 0 minute. Utilisez l'index de la colonne, et non son nom (n'oubliez pas d'utiliser .printSchema() pour voir les noms et l'ordre des colonnes).
Ajoutez une colonne ID.
Écrivez le fichier sous la forme d'un document JSON nommé output.json.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the data to a DataFrame
departures_df = spark.____(____, header=____)

# Remove any duration of 0
departures_df = departures_df.____(____)

# Add an ID column
departures_df = departures_df.____('id', ____)

# Write the file out to JSON format
____.write.____(____, mode='overwrite')

Modifier et exécuter le code