Padrões de arquitetura de pipeline de dados

Ao criar pipelines de dados, é melhor separar os arquivos em que as funções estão sendo definidas de onde elas estão sendo executadas.

Neste exercício, você praticará a importação de componentes de um pipeline para a memória antes de usar essas funções para executar o pipeline de ponta a ponta. O projeto tem o seguinte formato, em que pipeline_utils armazena as funções extract(), transform() e load() que serão usadas para executar o pipeline.

> ls
 etl_pipeline.py
 pipeline_utils.py

Este exercício faz parte do curso

ETL e ELT em Python

Ver curso

Instruções do exercício

Importe as funções extract, transform e load do módulo pipeline_utils.
Use as funções importadas para executar o pipeline de dados de ponta a ponta.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the extract, transform, and load functions from pipeline_utils
____

# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")

Editar e executar o código