Architekturmuster für Datenpipelines

Beim Aufbau von Datenpipelines ist es am besten, die Dateien, in denen die Funktionen definiert werden, von denen zu trennen, in denen sie ausgeführt werden.

In dieser Übung übst du, Komponenten einer Pipeline in den Speicher zu importieren, bevor du diese Funktionen verwendest, um die Pipeline Ende-zu-Ende auszuführen. Das Projekt hat folgendes Format, wobei pipeline_utils die Funktionen extract(), transform() und load() speichert, die für die Ausführung der Pipeline verwendet werden sollen.

> ls
 etl_pipeline.py
 pipeline_utils.py

Diese Übung ist Teil des Kurses

ETL und ELT in Python

Kurs anzeigen

Anleitung zur Übung

Importiere die Funktionen extract, transform, und load aus dem Modul pipeline_utils.
Verwende die importierten Funktionen, um die Datenpipeline Ende-zu-Ende auszuführen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the extract, transform, and load functions from pipeline_utils
____

# Run the pipeline end to end by extracting, transforming and loading the data
raw_tax_data = ____("raw_tax_data.csv")
clean_tax_data = ____(raw_tax_data)
____(clean_tax_data, "clean_tax_data.parquet")

Code bearbeiten und ausführen