Valideren van een datapijplijn op "checkpoints"
In deze oefening werk je met een datapijplijn die belastinggegevens uit een CSV-bestand extraheert, een nieuwe kolom toevoegt, rijen wegfiltert op basis van het gemiddelde belastbare inkomen en de gegevens opslaat in een parquet-bestand.
pandas is geladen als pd, en de functies extract(), transform() en load() zijn al gedefinieerd. Je gebruikt deze functies om de datapijplijn te valideren op verschillende checkpoints tijdens de uitvoering.
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")