Probar una canalización de datos de extremo a extremo

En este ejercicio trabajarás con la misma canalización de datos de antes, que extrae, transforma y carga datos fiscales. Practicarás cómo probar esta canalización de extremo a extremo para asegurarte de que la solución se pueda ejecutar varias veces sin duplicar los datos transformados en el archivo parquet.

pandas se ha cargado como pd, y las funciones extract(), transform() y load() ya están definidas.

Este ejercicio forma parte del curso

ETL and ELT con Python

Ver curso

Instrucciones del ejercicio

Ejecuta la canalización ETL tres veces usando un bucle for.
Imprime la forma (shape) de clean_tax_data en cada iteración de la ejecución de la canalización.
Lee el DataFrame almacenado en el archivo "clean_tax_data.parquet" en la variable to_validate.
Muestra la forma (shape) del DataFrame to_validate, comparándola con la de clean_tax_rate para asegurarte de que no se duplicaron datos en cada ejecución de la canalización.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")

Editar y ejecutar código