1. Apprendre
  2. /
  3. Cours
  4. /
  5. ETL et ELT en Python

Connected

Exercice

Valider un pipeline de données à des « points de contrôle »

Dans cet exercice, vous utiliserez un pipeline de données qui extrait des données fiscales d'un fichier CSV, crée une nouvelle colonne, filtre des lignes selon le revenu imposable moyen, puis enregistre les données dans un fichier Parquet.

pandas a été importé sous le nom pd, et les fonctions extract(), transform() et load() sont déjà définies. Vous utiliserez ces fonctions pour valider le pipeline de données à différents points de contrôle tout au long de son exécution.

Instructions 1/3

undefined XP
    1
    2
    3
  • Affichez la taille (shape) des DataFrames raw_tax_data et clean_tax_data et observez la différence de dimensions.