LoslegenKostenlos loslegen

Datenvalidierung durchführen

Nachdem du das Schema definiert hast, ist es Zeit für die Datenvalidierung. In dieser Übung erstellst du Validierungsregeln, um die Datenqualität sicherzustellen, und prüfst auf häufige Probleme wie Duplikate und Nullwerte.

Das table_schema aus der vorherigen Übung ist bereits geladen, ebenso der DataFrame ts und die Bibliothek pointblank.

Diese Übung ist Teil des Kurses

Forecasting-Pipelines für die Produktion entwerfen

Kurs anzeigen

Anleitung zur Übung

  • Definiere die Validierung mit der passenden Methode und übergib den DataFrame ts.
  • Richte Validierungsregeln mit dem table_schema ein und prüfe auf Duplikate.
  • Gib den Validierungsbericht aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
             
    # Set up the validation rules
    .col_schema_match(schema=____)
    .col_vals_gt(columns="value", value=0)
    .col_vals_in_set(columns="respondent", set = ["US48"])
    .col_vals_in_set(columns="type", set = ["D"])
    .col_vals_not_null(columns=["period", "value"])
    .____()
    .interrogate())

# Print the validation report
print(validation.____())
Code bearbeiten und ausführen