De zéro à héros
Vous maîtrisez désormais la création d’une spécification de modèle et la séparation des données en ensembles d’entraînement et de test. Vous savez aussi comment éviter les déséquilibres de classes lors du split. Il est temps d’assembler ce que vous avez appris dans la leçon précédente et de construire votre modèle en utilisant uniquement l’ensemble d’entraînement !
Vous allez mettre en place un véritable machine learning pipeline. Cela comprend la création d’une spécification de modèle, la séparation des données en ensembles d’entraînement et de test, et enfin l’ajustement du modèle sur les données d’entraînement. Bon exercice !
Cet exercice fait partie du cours
Machine Learning avec des modèles à base d’arbres en R
Instructions
- Créez
diabetes_split, un split où l’ensemble d’entraînement contient les trois quarts des lignes dediabeteset où les ensembles d’entraînement et de test ont une répartition similaire de la variableoutcome. - Construisez une spécification d’arbre de décision pour votre modèle avec le moteur
rpartet enregistrez-la soustree_spec. - Ajustez un modèle
model_traineden utilisant les données d’entraînement dediabetes_split, avecoutcomecomme variable cible etbmietskin_thicknesscomme prédicteurs.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
set.seed(9)
# Create the balanced data split
diabetes_split <- ___
# Build the specification of the model
tree_spec <- ___ %>%
___ %>%
___
# Train the model
model_trained <- ___ %>%
fit(___,
___)
model_trained