ComenzarEmpieza gratis

Probar una canalización de datos de principio a fin

En este ejercicio, trabajarás con la misma canalización de datos que antes, que extrae, transforma y carga datos fiscales. Practicarás la comprobación de este pipeline de extremo a extremo para asegurarte de que la solución puede ejecutarse varias veces, sin duplicar los datos transformados en el archivo parquet.

pandas se ha cargado como pd, y ya se han definido las funciones extract(), transform() y load().

Este ejercicio forma parte del curso

ETL y ELT en Python

Ver curso

Instrucciones de ejercicio

  • Ejecuta el canal ETL tres veces, utilizando un bucle for.
  • Imprime la forma de la clean_tax_data en cada iteración de la ejecución de la tubería.
  • Lee el DataFrame almacenado en el archivo "clean_tax_data.parquet" en la variable to_validate.
  • Da salida a la forma del DataFrame to_validate, comparándolo con la forma de clean_tax_rate para garantizar que los datos no se duplicaron en cada ejecución de la tubería.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
	print(f"Attempt: {attempt}")
	raw_tax_data = extract("raw_tax_data.csv")
	clean_tax_data = transform(raw_tax_data)
	load(clean_tax_data, "clean_tax_data.parquet")
	
	# Print the shape of the cleaned_tax_data DataFrame
	print(f"Shape of clean_tax_data: {clean_tax_data.____}")
    
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")
Editar y ejecutar código