Modell(e) trainieren
Jetzt kannst du endlich die Modelle trainieren und das beste auswählen!
Leider ist die Kreuzvalidierung ein sehr rechenintensiver Prozess. Das Trainieren aller Modelle würde auf DataCamp zu lange dauern.
Um dies lokal zu tun, würdest du diesen Code verwenden:
# Fit cross validation models
models = cv.fit(training)
# Extract the best model
best_lr = models.bestModel
Denke daran, dass die Trainingsdaten training
heißen und du lr
verwendest, um ein logistisches Regressionsmodell zu trainieren. Bei der Kreuzvalidierung wurden die Parameterwerte regParam=0
und elasticNetParam=0
als die besten ausgewählt. Dies sind die Standardwerte, du musst also nichts weiter mit lr
tun, bevor du das Modell trainierst.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Erstelle
best_lr
, indem dulr.fit()
mit den Daten vontraining
aufrufst. - Gib
best_lr
aus, um zu überprüfen, ob es sich um ein Objekt der KlasseLogisticRegressionModel
handelt.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Call lr.fit()
best_lr = ____
# Print best_lr
print(____)