Patrones de arquitectura de canalización de datos

Al construir canalizaciones de datos, es mejor separar los archivos donde se definen las funciones de donde se ejecutan.

En este ejercicio, practicarás la importación de componentes de una canalización a la memoria antes de utilizar estas funciones para ejecutar la canalización de extremo a extremo. El proyecto tiene el siguiente formato, donde pipeline_utils almacena las funciones extract(), transform(), y load() que se utilizarán para ejecutar la tubería.

> ls
 etl_pipeline.py
 pipeline_utils.py

Este ejercicio forma parte del curso

ETL y ELT en Python

Ver curso

Instrucciones del ejercicio

Importa las funciones extract, transform, y load del módulo pipeline_utils.
Utiliza las funciones importadas para ejecutar la canalización de datos de extremo a extremo.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the extract, transform, and load functions from pipeline_utils
____

# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")

Editar y ejecutar código