Validación de datos
Ahora que has definido el esquema, toca validar los datos. En este ejercicio, crearás reglas de validación para garantizar la calidad de los datos y detectar problemas comunes como duplicados y valores nulos.
El table_schema del ejercicio anterior ya está precargado, junto con el DataFrame ts y la librería pointblank.
Este ejercicio forma parte del curso
Diseño de canalizaciones de predicción para producción
Instrucciones del ejercicio
- Define la validación usando el método adecuado y pasando el DataFrame
ts. - Configura las reglas de validación con
table_schemay comprueba si hay duplicados. - Imprime el informe de validación.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Define the validation
validation = (pb.____(data=____,
tbl_name="US48 Data Validation",
label="Data Refresh",
thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))
# Set up the validation rules
.col_schema_match(schema=____)
.col_vals_gt(columns="value", value=0)
.col_vals_in_set(columns="respondent", set = ["US48"])
.col_vals_in_set(columns="type", set = ["D"])
.col_vals_not_null(columns=["period", "value"])
.____()
.interrogate())
# Print the validation report
print(validation.____())