CommencerCommencer gratuitement

Créer les plis

Découper les données une seule fois en ensembles d’entraînement et de test comporte des incertitudes statistiques : il y a une petite probabilité que votre ensemble de test ne contienne que des fèves très bien notées, tandis que toutes les fèves mal notées se trouvent dans l’ensemble d’entraînement. Cela signifie aussi que vous ne pouvez mesurer les performances de votre modèle qu’une seule fois.

La validation croisée fournit une estimation plus robuste de vos performances hors échantillon sans ces écueils statistiques : elle évalue votre modèle plus en profondeur.

Dans cet exercice, vous allez créer des plis à partir de vos données d’entraînement chocolate_train, déjà chargées.

Cet exercice fait partie du cours

Machine Learning avec des modèles à base d’arbres en R

Afficher le cours

Instructions

  • Fixez une graine à 20 pour assurer la reproductibilité.
  • Créez 10 plis de chocolate_train et enregistrez le résultat dans chocolate_folds.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Set seed for reproducibility
___

# Build 10 folds
chocolate_folds <- ___(___, v = ___)

print(chocolate_folds)
Modifier et exécuter le code