Architectuurpatronen voor datapipelines
Bij het bouwen van datapipelines is het het beste om de bestanden waarin functies worden gedefinieerd te scheiden van de bestanden waarin ze worden uitgevoerd.
In deze oefening importeer je eerst onderdelen van een pipeline in het geheugen en gebruik je deze functies daarna om de pipeline end-to-end te draaien. Het project heeft het volgende formaat, waarbij pipeline_utils de functies extract(), transform(), en load() bevat die worden gebruikt om de pipeline te draaien.
> ls
etl_pipeline.py
pipeline_utils.py
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Oefeninstructies
- Importeer de functies
extract,transformenloaduit de modulepipeline_utils. - Gebruik de geïmporteerde functies om de datapipeline end-to-end te draaien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the extract, transform, and load functions from pipeline_utils
____
# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")