Probar una canalización de datos de principio a fin
En este ejercicio, trabajarás con la misma canalización de datos que antes, que extrae, transforma y carga datos fiscales. Practicarás la comprobación de este pipeline de extremo a extremo para asegurarte de que la solución puede ejecutarse varias veces, sin duplicar los datos transformados en el archivo parquet.
pandas
se ha cargado como pd
, y ya se han definido las funciones extract()
, transform()
y load()
.
Este ejercicio forma parte del curso
ETL y ELT en Python
Instrucciones de ejercicio
- Ejecuta el canal ETL tres veces, utilizando un bucle
for
. - Imprime la forma de la
clean_tax_data
en cada iteración de la ejecución de la tubería. - Lee el DataFrame almacenado en el archivo
"clean_tax_data.parquet"
en la variableto_validate
. - Da salida a la forma del DataFrame
to_validate
, comparándolo con la forma declean_tax_rate
para garantizar que los datos no se duplicaron en cada ejecución de la tubería.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
print(f"Attempt: {attempt}")
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
load(clean_tax_data, "clean_tax_data.parquet")
# Print the shape of the cleaned_tax_data DataFrame
print(f"Shape of clean_tax_data: {clean_tax_data.____}")
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")