Plus l’erreur est grande, plus la pénalité est forte

Toutes les erreurs comptent, mais elles ne se valent pas toutes. Parfois, de grandes erreurs de prédiction sont disproportionnellement plus dommageables que les petites.

Plus l’erreur est grande, plus la pénalité est forte : c’est l’une des caractéristiques du RMSE (root mean squared error). Il met au carré les grandes erreurs, ce qui pénalise davantage ces valeurs aberrantes que les erreurs plus faibles.

Le RMSE se calcule à l’aide de la formule suivante, où la squared_diff i-ième est le carré de l’erreur i-ième.

$$RMSE = \sqrt{\frac{1}{n} \cdot \sum_{i=1} ^n i\text{th squared_diff}}$$

Dans cet exercice, vous allez calculer le RMSE de vos prédictions.

Votre espace de travail contient le résultat du dernier exercice, test_enriched, les données de test avec une nouvelle colonne .pred, qui correspond aux prédictions hors échantillon du modèle.

Cet exercice fait partie du cours

Machine Learning avec des modèles à base d’arbres en R

Afficher le cours

Instructions

Calculez, élément par élément, les différences entre les prédictions et les notes finales, mettez-les au carré et enregistrez-les dans squared_diffs.
Utilisez la formule ci-dessus pour calculer le RMSE et enregistrez-le dans rmse_manual.
Utilisez la fonction rmse() pour calculer l’erreur et enregistrez le résultat dans rmse_auto.
Affichez rmse_manual et rmse_auto pour vérifier qu’ils sont identiques.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Calculate the squared differences
squared_diffs <- (___ - ___)^___

# Compute the RMSE using the formula
rmse_manual <- ___(1 / ___ * ___)

# Compute the RMSE using a function
rmse_auto <- ___(___,
                 ___,
                 ___)

# Print both errors
___
___

Modifier et exécuter le code

Cet exercice fait partie du cours

Machine Learning avec des modèles à base d’arbres en R

DébutantNiveau de compétence

4.9+

Commencer le cours gratuitement

Prêt à construire un véritable pipeline de Machine Learning ? Réalisez des exercices guidés pas à pas pour apprendre à créer des arbres de décision, à scinder vos données et à prédire quels patients sont les plus susceptibles de développer un diabète. Pour finir, vous mettrez en place des mesures de performance pour évaluer vos modèles et juger vos prédictions.

Exercise 1: Bienvenue dans le cours !Exercise 2: Pourquoi des méthodes à base d’arbres ?Exercise 3: Définir cet arbre Exercise 4: Entraîner le modèle Exercise 5: Comment faire grandir votre arbre Exercise 6: Découpage entraînement/test Exercise 7: Éviter les déséquilibres de classes Exercise 8: De zéro à héros Exercise 9: Prédire et évaluer Exercise 10: Faire des prédictions Exercise 11: Décryptez la matrice Exercise 12: Prédisez-vous correctement ?

Envie d’un peu de douceur ? Utilisez un jeu de données d’évaluations de chocolats pour construire des arbres de régression et évaluer leurs performances avec des mesures d’erreur adaptées. Vous dépasserez les incertitudes statistiques d’un simple découpage apprentissage/test grâce à des techniques savoureuses comme la validation croisée, puis irez plus loin en maîtrisant le compromis biais-variance.

Exercise 1: Variables continues Exercise 2: Entraîner un arbre de régression Exercise 3: Prédire de nouvelles valeurs Exercise 4: Examiner la sortie du modèle Exercise 5: Mesures de performance pour les arbres de régression Exercise 6: Performance sur l’échantillon d’entraînement Exercise 7: Performance hors échantillon Exercise 8: Plus l’erreur est grande, plus la pénalité est forte

Exercice en cours

Exercise 9: Validation croisée Exercise 10: Créer les plis Exercise 11: Ajuster les folds Exercise 12: Évaluer les plis Exercise 13: Compromis biais-variance Exercise 14: Appeler les choses par leur nom Exercise 15: Ajuster la complexité du modèle Exercise 16: Performances en échantillon et hors échantillon

Il est temps d’aller plus loin avec le réglage de vos hyperparamètres et l’interprétation des courbes ROC (receiver operating characteristic). Dans ce chapitre, vous exploiterez l’intelligence collective avec des modèles d’ensemble comme le bagging ou les forêts aléatoires, et vous construirez des ensembles capables de prévoir quels titulaires de cartes de crédit sont les plus susceptibles de résilier.

Exercise 1: Ajuster les hyperparamètres Exercise 2: Générer une grille de réglage Exercise 3: Ajuster le long de la grille Exercise 4: Choisir le gagnant Exercise 5: D’autres mesures de modèle Exercise 6: Calculer la spécificité Exercise 7: Tracer la courbe ROC Exercise 8: Aire sous la courbe ROC Exercise 9: Arbres agrégés (bagging)Exercise 10: Créer des arbres baggés Exercise 11: ROC et AUC en échantillon Exercise 12: Vérifier le surapprentissage Exercise 13: Forêt aléatoire Exercise 14: Arbres ensachés vs. random forest Exercise 15: Importance des variables

Prêt pour le haut de gamme des modèles à base d’arbres ? Appliquez le gradient boosting pour créer des ensembles puissants surpassant tout ce que vous avez vu ou construit. Apprenez à les ajuster finement et à comparer différents modèles pour choisir le meilleur pour la production.

Exercise 1: Introduction au boosting Exercise 2: Bagging vs. boosting Exercise 3: Spécifier un ensemble boosté Exercise 4: Gradient boosting Exercise 5: Entraîner un ensemble boosté Exercise 6: Évaluer l’assemblage Exercise 7: Comparer à un classifieur unique Exercise 8: Optimiser l’ensemble boosté Exercise 9: Préparer l’optimisation Exercise 10: L’ajustement proprement dit Exercise 11: Finaliser le modèle Exercise 12: Comparaison de modèles Exercise 13: Comparer l’AUC Exercise 14: Tracer des courbes ROC Exercise 15: Récapitulatif