Modèles d'architecture de pipeline de données

Lorsque vous créez des pipelines de données, il est préférable de séparer les fichiers où les fonctions sont définies de ceux où elles sont exécutées.

Dans cet exercice, vous vous entraînerez à importer les composants d'un pipeline dans la mémoire avant d'utiliser ces fonctions pour exécuter le pipeline de bout en bout. Le projet prend le format suivant, où pipeline_utils stocke les fonctions extract(), transform(), et load() qui seront utilisées pour exécuter le pipeline.

> ls
 etl_pipeline.py
 pipeline_utils.py

Cet exercice fait partie du cours

ETL et ELT en Python

Afficher le cours

Instructions

Importez les fonctions extract, transform et load du module pipeline_utils.
Utilisez les fonctions importées pour exécuter le pipeline de données de bout en bout.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the extract, transform, and load functions from pipeline_utils
____

# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")

Modifier et exécuter le code