Test unitaire d'un pipeline de données avec des fixtures
Vous avez appris dans la dernière vidéo que les tests unitaires peuvent contribuer à renforcer la confiance dans votre pipeline de données et même à détecter les bogues tout au long du développement. Dans cet exercice, vous vous entraînerez à écrire des fixtures et des tests unitaires, en utilisant la bibliothèque pytest
et assert
.
La fonction transform
autour de laquelle vous allez construire des tests unitaires est illustrée ci-dessous à titre de référence. pandas
a été importé sous le nom de pd
, et la bibliothèque pytest()
est chargée et prête à l'emploi.
def transform(raw_data):
raw_data["tax_rate"] = raw_data["total_taxes_paid"] / raw_data["total_taxable_income"]
raw_data.set_index("industry_name", inplace=True)
return raw_data
Cet exercice fait partie du cours
ETL et ELT en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define a pytest fixture
@pytest.fixture()
____ ____():
raw_data = pd.read_csv("raw_tax_data.csv")
# Transform the raw_data, store in clean_data DataFrame, and return the variable
clean_data = ____
return ____