Aan de slagGa gratis aan de slag

Een datapijplijn valideren met assert

Om unittests voor datapijplijnen te bouwen, is het belangrijk dat je vertrouwd raakt met het sleutelwoord assert en de functie isinstance(). In deze oefening ga je met deze twee tools oefenen om onderdelen van een datapijplijn te valideren.

De functies extract() en transform() zijn voor je beschikbaar gemaakt, samen met pandas, dat is geïmporteerd als pd. Zowel extract() als transform() geven een DataFrame terug. Succes!

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)

# Validate the number of columns in the DataFrame
____ len(clean_tax_data.columns) == ____
Code bewerken en uitvoeren