Ajuster le(s) modèle(s)
Vous êtes enfin prêt à ajuster les modèles et à sélectionner le meilleur !
Malheureusement, la validation croisée est une procédure très gourmande en ressources informatiques. L'ajustement de tous les modèles prendrait trop de temps sur DataCamp.
Pour effectuer cette opération localement, vous devez utiliser le code suivant :
# Fit cross validation models
models = cv.fit(training)
# Extract the best model
best_lr = models.bestModel
Rappelez-vous que les données d'apprentissage s'appellent training
et que vous utilisez lr
pour ajuster un modèle de régression logistique. La validation croisée a permis de sélectionner les valeurs des paramètres regParam=0
et elasticNetParam=0
comme étant les meilleures. Il s'agit des valeurs par défaut, vous n'avez donc pas besoin de faire quoi que ce soit d'autre avec lr
avant d'ajuster le modèle.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Créez
best_lr
en appelantlr.fit()
sur les données detraining
. - Imprimez
best_lr
pour vérifier qu'il s'agit bien d'un objet de la classeLogisticRegressionModel
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Call lr.fit()
best_lr = ____
# Print best_lr
print(____)