Datenvalidierung durchführen
Nachdem du das Schema definiert hast, ist es Zeit für die Datenvalidierung. In dieser Übung erstellst du Validierungsregeln, um die Datenqualität sicherzustellen, und prüfst auf häufige Probleme wie Duplikate und Nullwerte.
Das table_schema aus der vorherigen Übung ist bereits geladen, ebenso der DataFrame ts und die Bibliothek pointblank.
Diese Übung ist Teil des Kurses
Forecasting-Pipelines für die Produktion entwerfen
Anleitung zur Übung
- Definiere die Validierung mit der passenden Methode und übergib den DataFrame
ts. - Richte Validierungsregeln mit dem
table_schemaein und prüfe auf Duplikate. - Gib den Validierungsbericht aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
# Set up the validation rules
.col_schema_match(schema=____)
.col_vals_gt(columns="value", value=0)
.col_vals_in_set(columns="respondent", set = ["US48"])
.col_vals_in_set(columns="type", set = ["D"])
.col_vals_not_null(columns=["period", "value"])
.____()
.interrogate())
# Print the validation report
print(validation.____())