1. Apprendre
  2. /
  3. Cours
  4. /
  5. ETL et ELT en Python

Connected

Exercice

Tester un pipeline de données de bout en bout

Dans cet exercice, vous utiliserez le même pipeline de données que précédemment, qui extrait, transforme et charge des données fiscales. Vous pratiquerez le test de ce pipeline de bout en bout pour vous assurer que la solution peut être exécutée plusieurs fois sans dupliquer les données transformées dans le fichier parquet.

pandas a été importé sous le nom pd, et les fonctions extract(), transform() et load() ont déjà été définies.

Instructions

100 XP
  • Exécutez le pipeline ETL trois fois à l'aide d'une boucle for.
  • Affichez la forme (shape) de clean_tax_data à chaque itération de l'exécution du pipeline.
  • Lisez le DataFrame stocké dans le fichier "clean_tax_data.parquet" dans la variable to_validate.
  • Affichez la forme du DataFrame to_validate et comparez-la à celle de clean_tax_rate pour confirmer qu'aucune donnée n'a été dupliquée à chaque exécution du pipeline.