ComenzarEmpieza gratis

Construye un modelo de Regresión Logística

Ya has construido un modelo de Árbol de Decisión utilizando los datos de los vuelos. Ahora vas a crear un modelo de Regresión Logística sobre los mismos datos.

El objetivo es predecir si es probable que un vuelo se retrase al menos 15 minutos (etiqueta 1) o no (etiqueta 0).

Aunque tienes varios predictores a tu disposición, de momento sólo utilizarás las columnas mon, depart y duration. Son características numéricas que pueden utilizarse inmediatamente para un modelo de Regresión Logística. Tendrás que trabajar un poco más para poder incluir rasgos categóricos. ¡Permanece atento!

Los datos se han dividido en conjuntos de entrenamiento y de prueba y están disponibles en flights_train y flights_test.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones de ejercicio

  • Importa la clase para crear un clasificador de Regresión Logística.
  • Crea un objeto clasificador y entrénalo con los datos de entrenamiento.
  • Haz predicciones para los datos de prueba y crea una matriz de confusión.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import the logistic regression class
from pyspark.ml.____ import ____

# Create a classifier object and train on training data
logistic = ____().____(____)

# Create predictions for the testing data and show confusion matrix
prediction = ____.____(____)
prediction.groupBy(____, ____).____().show()
Editar y ejecutar código