Gegevens valideren
Nu je het schema hebt gedefinieerd, is het tijd om gegevens te valideren. In deze oefening maak je validatieregels om de datakwaliteit te borgen en te controleren op veelvoorkomende problemen, zoals duplicaten en null-waarden.
De table_schema uit de vorige oefening is al voor je geladen, samen met de ts-DataFrame en de pointblank-bibliotheek.
Deze oefening maakt deel uit van de cursus
Forecasting-pijplijnen ontwerpen voor productie
Oefeninstructies
- Definieer de validatie met de juiste methode en geef de
ts-DataFrame door. - Stel validatieregels in met de
table_schemaen controleer op duplicaten. - Print het validatierapport.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
# Set up the validation rules
.col_schema_match(schema=____)
.col_vals_gt(columns="value", value=0)
.col_vals_in_set(columns="respondent", set = ["US48"])
.col_vals_in_set(columns="type", set = ["D"])
.col_vals_not_null(columns=["period", "value"])
.____()
.interrogate())
# Print the validation report
print(validation.____())