ComenzarEmpieza gratis

Validación de datos

Ahora que has definido el esquema, toca validar los datos. En este ejercicio, crearás reglas de validación para garantizar la calidad de los datos y detectar problemas comunes como duplicados y valores nulos.

El table_schema del ejercicio anterior ya está precargado, junto con el DataFrame ts y la librería pointblank.

Este ejercicio forma parte del curso

Diseño de canalizaciones de predicción para producción

Ver curso

Instrucciones del ejercicio

  • Define la validación usando el método adecuado y pasando el DataFrame ts.
  • Configura las reglas de validación con table_schema y comprueba si hay duplicados.
  • Imprime el informe de validación.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
             
    # Set up the validation rules
    .col_schema_match(schema=____)
    .col_vals_gt(columns="value", value=0)
    .col_vals_in_set(columns="respondent", set = ["US48"])
    .col_vals_in_set(columns="type", set = ["D"])
    .col_vals_not_null(columns=["period", "value"])
    .____()
    .interrogate())

# Print the validation report
print(validation.____())
Editar y ejecutar código