Aan de slagGa gratis aan de slag

Een datapijplijn unit-testen met fixtures

In de vorige video heb je geleerd dat unit-tests helpen om meer vertrouwen in je datapijplijn te krijgen, en zelfs bugs tijdens de ontwikkeling kunnen opsporen. In deze oefening ga je zowel fixtures als unit-tests schrijven met de pytest-bibliotheek en assert.

De transform-functie waar je unit-tests omheen bouwt, staat hieronder ter referentie. pandas is geïmporteerd als pd, en de pytest()-bibliotheek is geladen en klaar voor gebruik.

def transform(raw_data):
    raw_data["tax_rate"] = raw_data["total_taxes_paid"] / raw_data["total_taxable_income"]
    raw_data.set_index("industry_name", inplace=True)
    return raw_data

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Define a pytest fixture
@pytest.fixture()
____ ____():
    raw_data = pd.read_csv("raw_tax_data.csv")
    
    # Transform the raw_data, store in clean_data DataFrame, and return the variable
    clean_data = ____
    return ____
Code bewerken en uitvoeren