De zéro à héros

Vous maîtrisez désormais la création d’une spécification de modèle et la séparation des données en ensembles d’entraînement et de test. Vous savez aussi comment éviter les déséquilibres de classes lors du split. Il est temps d’assembler ce que vous avez appris dans la leçon précédente et de construire votre modèle en utilisant uniquement l’ensemble d’entraînement !

Vous allez mettre en place un véritable machine learning pipeline. Cela comprend la création d’une spécification de modèle, la séparation des données en ensembles d’entraînement et de test, et enfin l’ajustement du modèle sur les données d’entraînement. Bon exercice !

Cet exercice fait partie du cours

<cours>Machine Learning avec des modèles à base d’arbres en R</cours>

Instructions de l’exercice

Créez diabetes_split, un split où l’ensemble d’entraînement contient les trois quarts des lignes de diabetes et où les ensembles d’entraînement et de test ont une répartition similaire de la variable outcome.
Construisez une spécification d’arbre de décision pour votre modèle avec le moteur rpart et enregistrez-la sous tree_spec.
Ajustez un modèle model_trained en utilisant les données d’entraînement de diabetes_split, avec outcome comme variable cible et bmi et skin_thickness comme prédicteurs.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

set.seed(9)

# Create the balanced data split
diabetes_split <- ___

# Build the specification of the model
tree_spec <- ___ %>% 
  ___ %>% 
  ___

# Train the model
model_trained <- ___ %>% 
  fit(___, 
      ___)

model_trained

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Machine Learning avec des modèles à base d’arbres en R</cours>

DébutantNiveau de compétence

4.9+

Commencer le cours gratuitement

Ready to build a real machine learning pipeline? Complete step-by-step exercises to learn how to create decision trees, split your data, and predict which patients are most likely to suffer from diabetes. Last but not least, you’ll build performance measures to assess your models and judge your predictions.

Exercise 1: Bienvenue dans le cours !Exercise 2: Pourquoi des méthodes à base d’arbres ?Exercise 3: Définir cet arbre Exercise 4: Entraîner le modèle Exercise 5: Comment faire grandir votre arbre Exercise 6: Découpage entraînement/test Exercise 7: Éviter les déséquilibres de classes Exercise 8: De zéro à héros

Exercice actuel

Exercise 9: Prédire et évaluer Exercise 10: Faire des prédictions Exercise 11: Décryptez la matrice Exercise 12: Prédisez-vous correctement ?

Ready for some candy? Use a chocolate rating dataset to build regression trees and assess their performance using suitable error measures. You’ll overcome statistical insecurities of single train/test splits by applying sweet techniques like cross-validation and then dive even deeper by mastering the bias-variance tradeoff.

Exercise 1: Continuous outcomes Exercise 2: Train a regression tree Exercise 3: Predict new values Exercise 4: Inspect model output Exercise 5: Performance metrics for regression trees Exercise 6: In-sample performance Exercise 7: Out-of-sample performance Exercise 8: Bigger mistakes, bigger penalty Exercise 9: Cross-validation Exercise 10: Create the folds Exercise 11: Fit the folds Exercise 12: Evaluate the folds Exercise 13: Bias-variance tradeoff Exercise 14: Call things by their names Exercise 15: Adjust model complexity Exercise 16: In-sample and out-of-sample performance

Time to get serious with tuning your hyperparameters and interpreting receiver operating characteristic (ROC) curves. In this chapter, you’ll leverage the wisdom of the crowd with ensemble models like bagging or random forests and build ensembles that forecast which credit card customers are most likely to churn.

Exercise 1: Tuning hyperparameters Exercise 2: Generate a tuning grid Exercise 3: Tune along the grid Exercise 4: Pick the winner Exercise 5: More model measures Exercise 6: Calculate specificity Exercise 7: Draw the ROC curve Exercise 8: Area under the ROC curve Exercise 9: Bagged trees Exercise 10: Create bagged trees Exercise 11: In-sample ROC and AUC Exercise 12: Check for overfitting Exercise 13: Random forest Exercise 14: Bagged trees vs. random forest Exercise 15: Variable importance

Ready for the high society of tree-based models? Apply gradient boosting to create powerful ensembles that perform better than anything that you have seen or built. Learn about their fine-tuning and how to compare different models to pick a winner for production.

Exercise 1: Introduction to boosting Exercise 2: Bagging vs. boosting Exercise 3: Specify a boosted ensemble Exercise 4: Gradient boosting Exercise 5: Train a boosted ensemble Exercise 6: Evaluate the ensemble Exercise 7: Compare to a single classifier Exercise 8: Optimize the boosted ensemble Exercise 9: Tuning preparation Exercise 10: The actual tuning Exercise 11: Finalize the model Exercise 12: Model comparison Exercise 13: Compare AUC Exercise 14: Plot ROC curves Exercise 15: Wrap-up