Aan de slagBegin gratis

Architectuurpatronen voor datapipelines

Bij het bouwen van datapipelines is het het beste om de bestanden waarin functies worden gedefinieerd te scheiden van de bestanden waarin ze worden uitgevoerd.

In deze oefening importeer je eerst onderdelen van een pipeline in het geheugen en gebruik je deze functies daarna om de pipeline end-to-end te draaien. Het project heeft het volgende formaat, waarbij pipeline_utils de functies extract(), transform(), en load() bevat die worden gebruikt om de pipeline te draaien.

> ls
 etl_pipeline.py
 pipeline_utils.py

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Bekijk cursus

Oefeninstructies

  • Importeer de functies extract, transform en load uit de module pipeline_utils.
  • Gebruik de geïmporteerde functies om de datapipeline end-to-end te draaien.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the extract, transform, and load functions from pipeline_utils
____

# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")
Code bewerken en uitvoeren