CommencerCommencer gratuitement

Comparer les performances des modèles

La visualisation donne une bonne intuition des zones où le modèle fonctionne bien, et de celles où il échoue. Il est parfois utile de disposer d’une statistique qui attribue un score au modèle. Vous pouvez ainsi quantifier la qualité d’un modèle et le comparer à de nombreux autres. Une statistique courante est la root mean square error (souvent abrégée en « RMSE »), qui consiste simplement à élever les résidus au carré, puis à en prendre la moyenne, puis la racine carrée. Un RMSE faible pour un jeu de données donné indique de meilleures prédictions. (Par défaut, vous ne pouvez pas comparer des jeux de données différents, seulement des modèles différents sur le même jeu. Il est parfois possible de normaliser les jeux de données pour permettre des comparaisons entre eux.)

Ici, vous allez comparer les modèles gradient boosted trees et random forest.

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

both_responses, qui contient l’année prédite et l’année réelle du morceau pour les deux modèles, a été pré-défini comme un tibble local.

  • Créez un jeu de données avec la somme des carrés des résidus.
    • Ajoutez une colonne residual, égale à la réponse prédite moins la réponse réelle.
    • Regroupez les données par model.
    • Calculez une statistique récapitulative, rmse, égale à la racine carrée de la moyenne des residual au carré.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# both_responses has been pre-defined
both_responses

# Create a residual sum of squares dataset
___
Modifier et exécuter le code