Eseguire la validazione dei dati
Ora che hai definito lo schema, è il momento di eseguire la validazione dei dati. In questo esercizio creerai regole di validazione per garantire la qualità dei dati e verificare problemi comuni come duplicati e valori nulli.
Il table_schema dell'esercizio precedente è già caricato per te, insieme al DataFrame ts e alla libreria pointblank.
Questo esercizio fa parte del corso
Progettare pipeline di forecasting per la produzione
Istruzioni dell'esercizio
- Definisci la validazione usando il metodo corretto e passando il DataFrame
ts. - Configura le regole di validazione con
table_schemae controlla i duplicati. - Stampa il report di validazione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
# Set up the validation rules
.col_schema_match(schema=____)
.col_vals_gt(columns="value", value=0)
.col_vals_in_set(columns="respondent", set = ["US48"])
.col_vals_in_set(columns="type", set = ["D"])
.col_vals_not_null(columns=["period", "value"])
.____()
.interrogate())
# Print the validation report
print(validation.____())