CommencerCommencer gratuitement

Construire un modèle de régression logistique

Vous avez déjà construit un modèle d'arbre de décision à partir des données des vols. Vous allez maintenant créer un modèle de régression logistique sur les mêmes données.

L'objectif est de prédire si un vol est susceptible d'être retardé d'au moins 15 minutes (étiquette 1) ou non (étiquette 0).

Bien que vous disposiez d'un grand nombre de prédicteurs, vous n'utiliserez pour l'instant que les colonnes mon, depart et duration. Il s'agit de caractéristiques numériques qui peuvent être immédiatement utilisées pour un modèle de régression logistique. Vous devrez faire un peu plus de travail avant de pouvoir inclure des caractéristiques catégorielles. Restez à l'écoute !

Les données ont été divisées en ensembles de formation et de test et sont disponibles sous les noms flights_train et flights_test.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe permettant de créer un classificateur de régression logistique.
  • Créez un objet classificateur et entraînez-le sur les données d'entraînement.
  • Faites des prédictions pour les données du test et créez une matrice de confusion.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the logistic regression class
from pyspark.ml.____ import ____

# Create a classifier object and train on training data
logistic = ____().____(____)

# Create predictions for the testing data and show confusion matrix
prediction = ____.____(____)
prediction.groupBy(____, ____).____().show()
Modifier et exécuter le code