Patrones de arquitectura de canalización de datos
Al construir canalizaciones de datos, es mejor separar los archivos donde se definen las funciones de donde se ejecutan.
En este ejercicio, practicarás la importación de componentes de una canalización a la memoria antes de utilizar estas funciones para ejecutar la canalización de extremo a extremo. El proyecto tiene el siguiente formato, donde pipeline_utils
almacena las funciones extract()
, transform()
, y load()
que se utilizarán para ejecutar la tubería.
> ls
etl_pipeline.py
pipeline_utils.py
Este ejercicio forma parte del curso
ETL y ELT en Python
Instrucciones del ejercicio
- Importa las funciones
extract
,transform
, yload
del módulopipeline_utils
. - Utiliza las funciones importadas para ejecutar la canalización de datos de extremo a extremo.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import the extract, transform, and load functions from pipeline_utils
____
# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")