ComenzarEmpieza gratis

Construye un modelo de regresión logística

Ya has creado un modelo de árbol de decisión utilizando los datos de vuelos. Ahora vas a crear un modelo de regresión logística con los mismos datos.

El objetivo es predecir si es probable que un vuelo se retrase al menos 15 minutos (etiqueta « 1 ») o no (etiqueta « 0 »).

Aunque tienes a tu disposición una gran variedad de predictores, por el momento solo utilizarás las columnas « mon », « depart » y « duration ». Se trata de características numéricas que pueden utilizarse inmediatamente para un modelo de regresión logística. Tendrás que trabajar un poco más antes de poder incluir características categóricas. ¡Estate atento!

Los datos se han dividido en conjuntos de entrenamiento y prueba, y están disponibles en flights_train y flights_test.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Importa la clase para crear un clasificador de regresión logística.
  • Crea un objeto clasificador y entrénalo con los datos de entrenamiento.
  • Realiza predicciones para los datos de prueba y crea una matriz de confusión.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the logistic regression class
from pyspark.ml.____ import ____

# Create a classifier object and train on training data
logistic = ____().____(____)

# Create predictions for the testing data and show confusion matrix
prediction = ____.____(____)
prediction.groupBy(____, ____).____().show()
Editar y ejecutar código