Créer les plis
Découper les données une seule fois en ensembles d’entraînement et de test comporte des incertitudes statistiques : il y a une petite probabilité que votre ensemble de test ne contienne que des fèves très bien notées, tandis que toutes les fèves mal notées se trouvent dans l’ensemble d’entraînement. Cela signifie aussi que vous ne pouvez mesurer les performances de votre modèle qu’une seule fois.
La validation croisée fournit une estimation plus robuste de vos performances hors échantillon sans ces écueils statistiques : elle évalue votre modèle plus en profondeur.
Dans cet exercice, vous allez créer des plis à partir de vos données d’entraînement chocolate_train, déjà chargées.
Cet exercice fait partie du cours
Machine Learning avec des modèles à base d’arbres en R
Instructions
- Fixez une graine à 20 pour assurer la reproductibilité.
- Créez 10 plis de
chocolate_trainet enregistrez le résultat danschocolate_folds.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set seed for reproducibility
___
# Build 10 folds
chocolate_folds <- ___(___, v = ___)
print(chocolate_folds)