Validierung einer Datenpipeline an "Checkpoints"

In dieser Übung arbeitest du mit einer Datenpipeline, die Steuerdaten aus einer CSV Datei extrahiert, eine neue Spalte erstellt, Zeilen auf der Grundlage des durchschnittlichen steuerpflichtigen Einkommens herausfiltert und die Daten in eine Parkettdatei überträgt.

pandas wurde als pd geladen, und die Funktionen extract(), transform() und load() wurden bereits definiert. Du verwendest diese Funktionen, um die Datenpipeline an verschiedenen Prüfpunkten während ihrer Ausführung zu validieren.

Diese Übung ist Teil des Kurses

<Kurs>ETL und ELT mit Python</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)

# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")

Code bearbeiten und ausführen