Modell(e) trainieren
Jetzt kannst du endlich die Modelle trainieren und das beste auswählen!
Leider ist die Kreuzvalidierung ein sehr rechenintensiver Prozess. Das Trainieren aller Modelle würde auf DataCamp zu lange dauern.
Um dies lokal zu tun, würdest du diesen Code verwenden:
# Fit cross validation models
models = cv.fit(training)
# Extract the best model
best_lr = models.bestModel
Denke daran, dass die Trainingsdaten training heißen und du lr verwendest, um ein logistisches Regressionsmodell zu trainieren. Bei der Kreuzvalidierung wurden die Parameterwerte regParam=0 und elasticNetParam=0 als die besten ausgewählt. Dies sind die Standardwerte, du musst also nichts weiter mit lr tun, bevor du das Modell trainierst.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in PySpark</Kurs>Übungsanweisungen
- Erstelle
best_lr, indem dulr.fit()mit den Daten vontrainingaufrufst. - Gib
best_lraus, um zu überprüfen, ob es sich um ein Objekt der KlasseLogisticRegressionModelhandelt.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Call lr.fit()
best_lr = ____
# Print best_lr
print(____)