Een datapijplijn valideren met assert
Om unittests voor datapijplijnen te bouwen, is het belangrijk dat je vertrouwd raakt met het sleutelwoord assert en de functie isinstance(). In deze oefening ga je met deze twee tools oefenen om onderdelen van een datapijplijn te valideren.
De functies extract() en transform() zijn voor je beschikbaar gemaakt, samen met pandas, dat is geïmporteerd als pd. Zowel extract() als transform() geven een DataFrame terug. Succes!
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
raw_tax_data = extract("raw_tax_data.csv")
clean_tax_data = transform(raw_tax_data)
# Validate the number of columns in the DataFrame
____ len(clean_tax_data.columns) == ____