Teste de unidade de um pipeline de dados com acessórios
No último vídeo, você aprendeu que os testes unitários podem ajudar a aumentar a confiança em seu pipeline de dados e podem até mesmo ajudar a detectar bugs durante o desenvolvimento. Neste exercício, você praticará a escrita de fixtures e testes unitários, usando a biblioteca pytest
e assert
.
A função transform
em torno da qual você criará testes unitários é mostrada abaixo para referência. pandas
foi importada como pd
e a biblioteca pytest()
está carregada e pronta para uso.
def transform(raw_data):
raw_data["tax_rate"] = raw_data["total_taxes_paid"] / raw_data["total_taxable_income"]
raw_data.set_index("industry_name", inplace=True)
return raw_data
Este exercício faz parte do curso
ETL e ELT em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Define a pytest fixture
@pytest.fixture()
____ ____():
raw_data = pd.read_csv("raw_tax_data.csv")
# Transform the raw_data, store in clean_data DataFrame, and return the variable
clean_data = ____
return ____