Valideren van een datapijplijn op "checkpoints"

In deze oefening werk je met een datapijplijn die belastinggegevens uit een CSV-bestand extraheert, een nieuwe kolom toevoegt, rijen wegfiltert op basis van het gemiddelde belastbare inkomen en de gegevens opslaat in een parquet-bestand.

pandas is geladen als pd, en de functies extract(), transform() en load() zijn al gedefinieerd. Je gebruikt deze functies om de datapijplijn te valideren op verschillende checkpoints tijdens de uitvoering.

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Extract and transform tax_data
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)

# Check the shape of the raw_tax_data DataFrame, compare to the clean_tax_data DataFrame
print(f"Shape of raw_tax_data: {raw_tax_data.____}")
print(f"Shape of clean_tax_data: {____}")

Code bewerken en uitvoeren