CommencerCommencer gratuitement

Pipeline rapide

Avant d’analyser des données plus complexes, votre manager souhaite voir un exemple simple de pipeline avec les étapes de base. Dans cet exemple, vous allez ingérer un fichier de données, filtrer quelques lignes, ajouter une colonne d’ID, puis l’écrire au format JSON.

Le contexte spark est déjà défini, et la bibliothèque pyspark.sql.functions est importée avec l’alias F, comme c’est l’usage.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Importez le fichier 2015-departures.csv.gz dans un DataFrame. Notez que l’en-tête est déjà défini.
  • Filtrez le DataFrame pour ne conserver que les vols d’une durée strictement supérieure à 0 minute. Utilisez l’index de la colonne, pas son nom (pensez à utiliser .printSchema() pour voir les noms et l’ordre des colonnes).
  • Ajoutez une colonne d’ID.
  • Écrivez le résultat en JSON sous le nom output.json.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the data to a DataFrame
departures_df = spark.____(____, header=____)

# Remove any duration of 0
departures_df = departures_df.____(____)

# Add an ID column
departures_df = departures_df.____('id', ____)

# Write the file out to JSON format
____.write.____(____, mode='overwrite')
Modifier et exécuter le code