Architectuurpatronen voor datapipelines

Bij het bouwen van datapipelines is het het beste om de bestanden waarin functies worden gedefinieerd te scheiden van de bestanden waarin ze worden uitgevoerd.

In deze oefening importeer je eerst onderdelen van een pipeline in het geheugen en gebruik je deze functies daarna om de pipeline end-to-end te draaien. Het project heeft het volgende formaat, waarbij pipeline_utils de functies extract(), transform(), en load() bevat die worden gebruikt om de pipeline te draaien.

> ls
 etl_pipeline.py
 pipeline_utils.py

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Cursus bekijken

Oefeninstructies

Importeer de functies extract, transform en load uit de module pipeline_utils.
Gebruik de geïmporteerde functies om de datapipeline end-to-end te draaien.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the extract, transform, and load functions from pipeline_utils
____

# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")

Code bewerken en uitvoeren