ComeçarComece de graça

Realizando validação de dados

Agora que você definiu o schema, é hora de realizar a validação dos dados. Neste exercício, você vai criar regras de validação para garantir a qualidade dos dados e verificar problemas comuns como duplicatas e valores nulos.

O table_schema do exercício anterior já está carregado para você, junto com o DataFrame ts e a biblioteca pointblank.

Este exercício faz parte do curso

Projetando Pipelines de Previsão para Produção

Ver curso

Instruções do exercício

  • Defina a validação usando o método correto e passando o DataFrame ts.
  • Configure as regras de validação com o table_schema e verifique duplicatas.
  • Imprima o relatório de validação.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
             
    # Set up the validation rules
    .col_schema_match(schema=____)
    .col_vals_gt(columns="value", value=0)
    .col_vals_in_set(columns="respondent", set = ["US48"])
    .col_vals_in_set(columns="type", set = ["D"])
    .col_vals_not_null(columns=["period", "value"])
    .____()
    .interrogate())

# Print the validation report
print(validation.____())
Editar e executar o código