Eseguire unit test di una pipeline dati con fixture
Nel video precedente hai visto che gli unit test possono aumentare la fiducia nella tua pipeline dati e aiutano anche a intercettare bug durante lo sviluppo. In questo esercizio, farai pratica nel scrivere sia fixture sia unit test, usando la libreria pytest e assert.
La funzione transform su cui costruirai gli unit test è riportata qui sotto come riferimento. pandas è stato importato come pd e la libreria pytest() è caricata e pronta all'uso.
def transform(raw_data):
raw_data["tax_rate"] = raw_data["total_taxes_paid"] / raw_data["total_taxable_income"]
raw_data.set_index("industry_name", inplace=True)
return raw_data
Questo esercizio fa parte del corso
ETL and ELT in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Define a pytest fixture
@pytest.fixture()
____ ____():
raw_data = pd.read_csv("raw_tax_data.csv")
# Transform the raw_data, store in clean_data DataFrame, and return the variable
clean_data = ____
return ____