¿Qué es la regresión logística?
El modelo que vas a ajustar en este capítulo se llama regresión logística. Este modelo es muy similar a una regresión lineal, pero en lugar de predecir una variable numérica, predice la probabilidad (entre 0 y 1) de un suceso.
Para utilizar esto como algoritmo de clasificación, todo lo que tienes que hacer es asignar un punto de corte a estas probabilidades. Si la probabilidad predicha está por encima del punto de corte, clasifica esa observación como un "sí" (en este caso, que el vuelo llegue tarde), si está por debajo, ¡clasifícala como un "no"!
Afinarás este modelo probando distintos valores para varios hiperparámetros. Un hiperparámetro no es más que un valor del modelo que no se estima a partir de los datos, sino que lo proporciona el usuario para maximizar el rendimiento. Para este curso no es necesario que entiendas las matemáticas que hay detrás de todos estos valores; lo importante es que pruebes algunas opciones diferentes y elijas la mejor.
¿Por qué proporcionas hiperparámetros?
Este ejercicio forma parte del curso
Introducción a PySpark
Ejercicio interactivo práctico
Convierte la teoría en acción con uno de nuestros ejercicios interactivos
