Teste de um pipeline de dados de ponta a ponta

Neste exercício, você trabalhará com o mesmo pipeline de dados de antes, que extrai, transforma e carrega dados fiscais. Você praticará o teste desse pipeline de ponta a ponta para garantir que a solução possa ser executada várias vezes, sem duplicar os dados transformados no arquivo parquet.

pandas foi carregado como pd, e as funções extract(), transform() e load() já foram definidas.

Este exercicio faz parte do curso

ETL e ELT em Python

Ver curso

Instruções do exercicio

Execute o pipeline ETL três vezes, usando um for-loop.
Imprima a forma do site clean_tax_data em cada iteração da execução do pipeline.
Leia o DataFrame armazenado no arquivo "clean_tax_data.parquet" na variável to_validate.
Produza o formato do DataFrame to_validate, comparando-o com o formato de clean_tax_rate para garantir que os dados não sejam duplicados em cada execução do pipeline.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")

Editar e Executar Código