Validación cruzada
En los próximos ejercicios afinarás tu modelo de regresión logística utilizando un procedimiento llamado validación cruzada k-fold. Se trata de un método para estimar el rendimiento del modelo sobre datos no vistos (como tu test
DataFrame).
Funciona dividiendo los datos de entrenamiento en unas cuantas particiones diferentes. El número exacto depende de ti, pero en este curso utilizarás el valor por defecto de PySpark de tres. Una vez divididos los datos, se reserva una de las particiones y se ajusta el modelo a las otras. Luego se mide el error respecto a la partición retenida. Esto se repite para cada una de las particiones, de modo que cada bloque de datos se retiene y se utiliza como conjunto de prueba exactamente una vez. A continuación, se calcula la media del error en cada una de las particiones. Esto se llama error de validación cruzada del modelo, y es una buena estimación del error real en los datos retenidos.
Utilizarás la validación cruzada para elegir los hiperparámetros creando una cuadrícula con los posibles pares de valores de los dos hiperparámetros, elasticNetParam
y regParam
, y utilizando el error de validación cruzada para comparar todos los modelos diferentes y poder elegir el mejor.
¿Qué te permite estimar la validación cruzada?
Este ejercicio forma parte del curso
Introducción a PySpark
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
