Validation croisée
Dans les prochains exercices, vous allez ajuster votre modèle de régression logistique à l'aide d'une procédure appelée validation croisée k-fold. Il s'agit d'une méthode d'estimation des performances du modèle sur des données non vues (comme votre DataFrame test
).
Il s'agit de diviser les données d'apprentissage en plusieurs partitions différentes. Le nombre exact dépend de vous, mais dans ce cours, vous utiliserez la valeur par défaut de PySpark, à savoir trois. Une fois les données divisées, l'une des partitions est mise de côté et le modèle est adapté aux autres. L'erreur est ensuite mesurée par rapport à la partition retenue. Cette opération est répétée pour chacune des partitions, de sorte que chaque bloc de données est conservé et utilisé comme ensemble de test exactement une fois. On calcule ensuite la moyenne de l'erreur sur chacune des partitions. C'est ce qu'on appelle l'erreur de validation croisée du modèle, et c'est une bonne estimation de l'erreur réelle sur les données retenues.
Vous utiliserez la validation croisée pour choisir les hyperparamètres en créant une grille des paires de valeurs possibles pour les deux hyperparamètres, elasticNetParam
et regParam
, et en utilisant l'erreur de validation croisée pour comparer tous les différents modèles afin de choisir le meilleur !
Qu'est-ce que la validation croisée vous permet d'estimer ?
Cet exercice fait partie du cours
Introduction à PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
