IniziaInizia gratis

Eseguire la validazione dei dati

Ora che hai definito lo schema, è il momento di eseguire la validazione dei dati. In questo esercizio creerai regole di validazione per garantire la qualità dei dati e verificare problemi comuni come duplicati e valori nulli.

Il table_schema dell'esercizio precedente è già caricato per te, insieme al DataFrame ts e alla libreria pointblank.

Questo esercizio fa parte del corso

Progettare pipeline di forecasting per la produzione

Visualizza il corso

Istruzioni dell'esercizio

  • Definisci la validazione usando il metodo corretto e passando il DataFrame ts.
  • Configura le regole di validazione con table_schema e controlla i duplicati.
  • Stampa il report di validazione.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
             
    # Set up the validation rules
    .col_schema_match(schema=____)
    .col_vals_gt(columns="value", value=0)
    .col_vals_in_set(columns="respondent", set = ["US48"])
    .col_vals_in_set(columns="type", set = ["D"])
    .col_vals_not_null(columns=["period", "value"])
    .____()
    .interrogate())

# Print the validation report
print(validation.____())
Modifica ed esegui il codice