Bouw een Logistic Regression-model
Je hebt al een Decision Tree-model gebouwd met de vluchtgegevens. Nu ga je een Logistic Regression-model maken op dezelfde data.
Het doel is te voorspellen of een vlucht waarschijnlijk minstens 15 minuten vertraging heeft (label 1) of niet (label 0).
Hoewel je verschillende voorspellers tot je beschikking hebt, gebruik je voor nu alleen de kolommen mon, depart en duration. Dit zijn numerieke features die je direct kunt gebruiken voor een Logistic Regression-model. Voor categorische features moet je nog wat extra stappen zetten. Stay tuned!
De data zijn opgesplitst in trainings- en testsets en zijn beschikbaar als flights_train en flights_test.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Importeer de klasse om een Logistic Regression-classifier te maken.
- Maak een classifier-object en train het op de trainingsdata.
- Maak voorspellingen voor de testdata en maak een verwarringsmatrix.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the logistic regression class
from pyspark.ml.____ import ____
# Create a classifier object and train on training data
logistic = ____().____(____)
# Create predictions for the testing data and show confusion matrix
prediction = ____.____(____)
prediction.groupBy(____, ____).____().show()