Probar una canalización de datos de extremo a extremo
En este ejercicio trabajarás con la misma canalización de datos de antes, que extrae, transforma y carga datos fiscales. Practicarás cómo probar esta canalización de extremo a extremo para asegurarte de que la solución se pueda ejecutar varias veces sin duplicar los datos transformados en el archivo parquet.
pandas se ha cargado como pd, y las funciones extract(), transform() y load() ya están definidas.
Este ejercicio forma parte del curso
ETL and ELT con Python
Instrucciones del ejercicio
- Ejecuta la canalización ETL tres veces usando un bucle
for. - Imprime la forma (
shape) declean_tax_dataen cada iteración de la ejecución de la canalización. - Lee el DataFrame almacenado en el archivo
"clean_tax_data.parquet"en la variableto_validate. - Muestra la forma (
shape) del DataFrameto_validate, comparándola con la declean_tax_ratepara asegurarte de que no se duplicaron datos en cada ejecución de la canalización.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Trigger the data pipeline to run three times
____ attempt in range(0, ____):
print(f"Attempt: {attempt}")
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
load(clean_tax_data, "clean_tax_data.parquet")
# Print the shape of the cleaned_tax_data DataFrame
print(f"Shape of clean_tax_data: {clean_tax_data.____}")
# Read in the loaded data, check the shape
to_validate = pd.____("clean_tax_data.parquet")
print(f"Final shape of cleaned data: {to_validate.____}")