ComeçarComece de graça

Teste de um pipeline de dados de ponta a ponta

Neste exercício, você trabalhará com o mesmo pipeline de dados de antes, que extrai, transforma e carrega dados fiscais. Você praticará o teste desse pipeline de ponta a ponta para garantir que a solução possa ser executada várias vezes, sem duplicar os dados transformados no arquivo parquet.

pandas foi carregado como pd, e as funções extract(), transform() e load() já foram definidas.

Este exercício faz parte do curso

ETL e ELT em Python

Ver curso

Instruções do exercício

  • Execute o pipeline de ETL três vezes, usando um for-loop.
  • Imprima a forma do site clean_tax_data em cada iteração da execução do pipeline.
  • Leia o DataFrame armazenado no arquivo "clean_tax_data.parquet" na variável to_validate.
  • Emita a forma do DataFrame to_validate, comparando-a com a forma de clean_tax_rate para garantir que os dados não sejam duplicados em cada execução do pipeline.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")
Editar e executar o código