Padrões de arquitetura de pipeline de dados
Ao criar pipelines de dados, é melhor separar os arquivos em que as funções estão sendo definidas de onde elas estão sendo executadas.
Neste exercício, você praticará a importação de componentes de um pipeline para a memória antes de usar essas funções para executar o pipeline de ponta a ponta. O projeto tem o seguinte formato, em que pipeline_utils
armazena as funções extract()
, transform()
e load()
que serão usadas para executar o pipeline.
> ls
etl_pipeline.py
pipeline_utils.py
Este exercício faz parte do curso
ETL e ELT em Python
Instruções de exercício
- Importe as funções
extract
,transform
eload
do módulopipeline_utils
. - Use as funções importadas para executar o pipeline de dados de ponta a ponta.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import the extract, transform, and load functions from utils
____
# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")