Validación de una canalización de datos en "puntos de control"
En este ejercicio, trabajarás con una canalización de datos que extrae datos de impuestos de un archivo CSV, crea una columna nueva, filtra filas según la renta imponible media y persiste los datos en un archivo parquet.
pandas se ha cargado como pd, y las funciones extract(), transform() y load() ya están definidas. Usarás estas funciones para validar la canalización de datos en varios puntos de control a lo largo de su ejecución.
Este ejercicio forma parte del curso
ETL and ELT con Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")