Teste de um pipeline de dados de ponta a ponta
Neste exercício, você trabalhará com o mesmo pipeline de dados de antes, que extrai, transforma e carrega dados fiscais. Você praticará o teste desse pipeline de ponta a ponta para garantir que a solução possa ser executada várias vezes, sem duplicar os dados transformados no arquivo parquet.
pandas
foi carregado como pd
, e as funções extract()
, transform()
e load()
já foram definidas.
Este exercício faz parte do curso
ETL e ELT em Python
Instruções do exercício
- Execute o pipeline de ETL três vezes, usando um
for
-loop. - Imprima a forma do site
clean_tax_data
em cada iteração da execução do pipeline. - Leia o DataFrame armazenado no arquivo
"clean_tax_data.parquet"
na variávelto_validate
. - Emita a forma do DataFrame
to_validate
, comparando-a com a forma declean_tax_rate
para garantir que os dados não sejam duplicados em cada execução do pipeline.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
print(f"Attempt: {attempt}")
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
load(clean_tax_data, "clean_tax_data.parquet")
# Print the shape of the cleaned_tax_data DataFrame
print(f"Shape of clean_tax_data: {clean_tax_data.____}")
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")