Het model(len) fitten
Je bent eindelijk klaar om de modellen te fitten en de beste te kiezen!
Helaas is cross-validatie een erg rekenintensieve procedure. Het fitten van alle modellen zou op DataCamp te lang duren.
Lokaal zou je hiervoor de volgende code gebruiken:
# Fit cross-validatiemodellen
models = cv.fit(training)
# Haal het beste model op
best_lr = models.bestModel
Onthoud: de trainingsdata heet training en je gebruikt lr om een logistic regression-model te fitten. Cross-validatie heeft de parameterwaarden regParam=0 en elasticNetParam=0 als beste geselecteerd. Dit zijn de standaardwaarden, dus je hoeft verder niets met lr te doen voordat je het model fit.
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Maak
best_lrdoorlr.fit()aan te roepen op detraining-data. - Print
best_lrom te controleren dat het een object van de klasseLogisticRegressionModelis.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Call lr.fit()
best_lr = ____
# Print best_lr
print(____)