Construire un modèle de régression logistique
Vous avez déjà créé un modèle d'arbre de décision à l'aide des données relatives aux vols. Vous allez maintenant créer un modèle de régression logistique à partir des mêmes données.
L'objectif est de prédire si un vol est susceptible d'être retardé d'au moins 15 minutes (étiquette « 1
») ou non (étiquette « 0
»).
Bien que vous disposiez de nombreux prédicateurs, vous n'utiliserez pour l'instant que les colonnes « mon
», « depart
» et « duration
». Il s'agit de caractéristiques numériques qui peuvent être immédiatement utilisées pour un modèle de régression logistique. Vous devrez effectuer quelques manipulations supplémentaires avant de pouvoir inclure des caractéristiques catégorielles. Restez à l'écoute !
Les données ont été divisées en ensembles d'entraînement et de test et sont disponibles aux adresses flights_train
et flights_test
.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez la classe permettant de créer un classificateur de régression logistique.
- Créez un objet classificateur et entraînez-le à partir des données d'entraînement.
- Effectuez des prédictions pour les données de test et créez une matrice de confusion.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the logistic regression class
from pyspark.ml.____ import ____
# Create a classifier object and train on training data
logistic = ____().____(____)
# Create predictions for the testing data and show confusion matrix
prediction = ____.____(____)
prediction.groupBy(____, ____).____().show()