Validierung einer Datenpipeline an "Checkpoints"
In dieser Übung arbeitest du mit einer Datenpipeline, die Steuerdaten aus einer CSV-Datei extrahiert, eine neue Spalte erstellt, Zeilen auf Basis des durchschnittlichen steuerpflichtigen Einkommens herausfiltert und die Daten in einer Parkettdatei speichert.
pandas
wurde als pd
geladen, und die Funktionen extract()
, transform()
und load()
wurden bereits definiert. Du verwendest diese Funktionen, um die Datenpipeline an verschiedenen Prüfpunkten während ihrer Ausführung zu validieren.
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")