CommencerCommencer gratuitement

De zéro à héros

Vous maîtrisez désormais la création d’une spécification de modèle et la séparation des données en ensembles d’entraînement et de test. Vous savez aussi comment éviter les déséquilibres de classes lors du split. Il est temps d’assembler ce que vous avez appris dans la leçon précédente et de construire votre modèle en utilisant uniquement l’ensemble d’entraînement !

Vous allez mettre en place un véritable machine learning pipeline. Cela comprend la création d’une spécification de modèle, la séparation des données en ensembles d’entraînement et de test, et enfin l’ajustement du modèle sur les données d’entraînement. Bon exercice !

Cet exercice fait partie du cours

Machine Learning avec des modèles à base d’arbres en R

Afficher le cours

Instructions

  • Créez diabetes_split, un split où l’ensemble d’entraînement contient les trois quarts des lignes de diabetes et où les ensembles d’entraînement et de test ont une répartition similaire de la variable outcome.
  • Construisez une spécification d’arbre de décision pour votre modèle avec le moteur rpart et enregistrez-la sous tree_spec.
  • Ajustez un modèle model_trained en utilisant les données d’entraînement de diabetes_split, avec outcome comme variable cible et bmi et skin_thickness comme prédicteurs.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

set.seed(9)

# Create the balanced data split
diabetes_split <- ___

# Build the specification of the model
tree_spec <- ___ %>% 
  ___ %>% 
  ___

# Train the model
model_trained <- ___ %>% 
  fit(___, 
      ___)

model_trained
Modifier et exécuter le code