Architekturmuster für Datenpipelines
Beim Aufbau von Datenpipelines ist es am besten, die Dateien, in denen die Funktionen definiert werden, von denen zu trennen, in denen sie ausgeführt werden.
In dieser Übung übst du, Komponenten einer Pipeline in den Speicher zu importieren, bevor du diese Funktionen verwendest, um die Pipeline Ende-zu-Ende auszuführen. Das Projekt hat folgendes Format, wobei pipeline_utils
die Funktionen extract()
, transform()
und load()
speichert, die für die Ausführung der Pipeline verwendet werden sollen.
> ls
etl_pipeline.py
pipeline_utils.py
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Anleitung zur Übung
- Importiere die Funktionen
extract
,transform
, undload
aus dem Modulpipeline_utils
. - Verwende die importierten Funktionen, um die Datenpipeline Ende-zu-Ende auszuführen.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import the extract, transform, and load functions from utils
____
# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")