Validation croisée

Dans les prochains exercices, vous allez ajuster votre modèle de régression logistique à l'aide d'une procédure appelée validation croisée k-fold. Il s'agit d'une méthode d'estimation des performances du modèle sur des données non vues (comme votre DataFrame test ).

Il s'agit de diviser les données d'apprentissage en plusieurs partitions différentes. Le nombre exact dépend de vous, mais dans ce cours, vous utiliserez la valeur par défaut de PySpark, à savoir trois. Une fois les données divisées, l'une des partitions est mise de côté et le modèle est adapté aux autres. L'erreur est ensuite mesurée par rapport à la partition retenue. Cette opération est répétée pour chacune des partitions, de sorte que chaque bloc de données est conservé et utilisé comme ensemble de test exactement une fois. On calcule ensuite la moyenne de l'erreur sur chacune des partitions. C'est ce qu'on appelle l'erreur de validation croisée du modèle, et c'est une bonne estimation de l'erreur réelle sur les données retenues.

Vous utiliserez la validation croisée pour choisir les hyperparamètres en créant une grille des paires de valeurs possibles pour les deux hyperparamètres, elasticNetParam et regParam, et en utilisant l'erreur de validation croisée pour comparer tous les différents modèles afin de choisir le meilleur !

Qu'est-ce que la validation croisée vous permet d'estimer ?

Cet exercice fait partie du cours

<cours>Introduction à PySpark</cours>

Voir le cours

Exercice interactif pratique

Transformez la théorie en action avec l’un de nos exercices interactifs

Commencer l’exercice