ComenzarEmpieza gratis

Validar un canal de datos en "puntos de control"

En este ejercicio, trabajarás con una canalización de datos que extrae los datos fiscales de un archivo CSV, crea una nueva columna, filtra las filas en función de la renta imponible media y persiste los datos en un archivo parquet.

pandas se ha cargado como pd, y ya se han definido las funciones extract(), transform() y load(). Utilizarás estas funciones para validar la canalización de datos en varios puntos de control a lo largo de su ejecución.

Este ejercicio forma parte del curso

ETL y ELT en Python

Ver curso

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)

# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")
Editar y ejecutar código