Modèles d'architecture de pipeline de données
Lorsque vous créez des pipelines de données, il est préférable de séparer les fichiers où les fonctions sont définies de ceux où elles sont exécutées.
Dans cet exercice, vous vous entraînerez à importer les composants d'un pipeline dans la mémoire avant d'utiliser ces fonctions pour exécuter le pipeline de bout en bout. Le projet prend le format suivant, où pipeline_utils
stocke les fonctions extract()
, transform()
, et load()
qui seront utilisées pour exécuter le pipeline.
> ls
etl_pipeline.py
pipeline_utils.py
Cet exercice fait partie du cours
ETL et ELT en Python
Instructions
- Importez les fonctions
extract
,transform
etload
du modulepipeline_utils
. - Utilisez les fonctions importées pour exécuter le pipeline de données de bout en bout.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the extract, transform, and load functions from pipeline_utils
____
# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")