Probar una canalización de datos de extremo a extremo

En este ejercicio trabajarás con la misma canalización de datos de antes, que extrae, transforma y carga datos fiscales. Practicarás cómo probar esta canalización de extremo a extremo para asegurarte de que la solución se pueda ejecutar varias veces sin duplicar los datos transformados en el archivo parquet.

pandas se ha cargado como pd, y las funciones extract(), transform() y load() ya están definidas.

Este ejercicio forma parte del curso

ETL y ELT en Python

Ver curso

Instrucciones del ejercicio

Ejecuta la canalización ETL tres veces usando un bucle for.
Imprime la forma (shape) de clean_tax_data en cada iteración de la ejecución de la canalización.
Lee el DataFrame almacenado en el archivo "clean_tax_data.parquet" en la variable to_validate.
Muestra la forma (shape) del DataFrame to_validate, comparándola con la de clean_tax_rate para asegurarte de que no se duplicaron datos en cada ejecución de la canalización.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")

Editar y ejecutar código