Patrones de arquitectura de canalizaciones de datos
Al crear canalizaciones de datos, lo ideal es separar los archivos donde se definen las funciones de aquellos donde se ejecutan.
En este ejercicio, practicarás importando componentes de una canalización en memoria antes de usar esas funciones para ejecutarla de extremo a extremo. El proyecto tiene el siguiente formato, donde pipeline_utils almacena las funciones extract(), transform(), y load() que se usarán para ejecutar la canalización.
> ls
etl_pipeline.py
pipeline_utils.py
Este ejercicio forma parte del curso
ETL and ELT con Python
Instrucciones del ejercicio
- Importa las funciones
extract,transformyloaddel módulopipeline_utils. - Usa las funciones importadas para ejecutar la canalización de datos de extremo a extremo.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the extract, transform, and load functions from pipeline_utils
____
# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")