Aan de slagGa gratis aan de slag

Gegevens valideren

Nu je het schema hebt gedefinieerd, is het tijd om gegevens te valideren. In deze oefening maak je validatieregels om de datakwaliteit te borgen en te controleren op veelvoorkomende problemen, zoals duplicaten en null-waarden.

De table_schema uit de vorige oefening is al voor je geladen, samen met de ts-DataFrame en de pointblank-bibliotheek.

Deze oefening maakt deel uit van de cursus

Forecasting-pijplijnen ontwerpen voor productie

Cursus bekijken

Oefeninstructies

  • Definieer de validatie met de juiste methode en geef de ts-DataFrame door.
  • Stel validatieregels in met de table_schema en controleer op duplicaten.
  • Print het validatierapport.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
             
    # Set up the validation rules
    .col_schema_match(schema=____)
    .col_vals_gt(columns="value", value=0)
    .col_vals_in_set(columns="respondent", set = ["US48"])
    .col_vals_in_set(columns="type", set = ["D"])
    .col_vals_not_null(columns=["period", "value"])
    .____()
    .interrogate())

# Print the validation report
print(validation.____())
Code bewerken en uitvoeren