Test unitaire d'un pipeline de données avec des fixtures

Vous avez appris dans la dernière vidéo que les tests unitaires peuvent contribuer à renforcer la confiance dans votre pipeline de données et même à détecter les bogues tout au long du développement. Dans cet exercice, vous vous entraînerez à écrire des fixtures et des tests unitaires, en utilisant la bibliothèque pytest et assert.

La fonction transform autour de laquelle vous allez construire des tests unitaires est illustrée ci-dessous à titre de référence. pandas a été importé sous le nom de pd, et la bibliothèque pytest() est chargée et prête à l'emploi.

def transform(raw_data):

    raw_data["tax_rate"] = raw_data["total_taxes_paid"] / raw_data["total_taxable_income"]

    raw_data.set_index("industry_name", inplace=True)

    return raw_data

Cet exercice fait partie du cours

<cours>ETL et ELT en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Define a pytest fixture
@pytest.fixture()
____ ____():
    raw_data = pd.read_csv("raw_tax_data.csv")
    
    # Transform the raw_data, store in clean_data DataFrame, and return the variable
    clean_data = ____
    return ____

Modifier et exécuter le code