Realizando validação de dados
Agora que você definiu o schema, é hora de realizar a validação dos dados. Neste exercício, você vai criar regras de validação para garantir a qualidade dos dados e verificar problemas comuns como duplicatas e valores nulos.
O table_schema do exercício anterior já está carregado para você, junto com o DataFrame ts e a biblioteca pointblank.
Este exercício faz parte do curso
Projetando Pipelines de Previsão para Produção
Instruções do exercício
- Defina a validação usando o método correto e passando o DataFrame
ts. - Configure as regras de validação com o
table_schemae verifique duplicatas. - Imprima o relatório de validação.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
# Set up the validation rules
.col_schema_match(schema=____)
.col_vals_gt(columns="value", value=0)
.col_vals_in_set(columns="respondent", set = ["US48"])
.col_vals_in_set(columns="type", set = ["D"])
.col_vals_not_null(columns=["period", "value"])
.____()
.interrogate())
# Print the validation report
print(validation.____())