Prédiction sur l’ensemble de test

Dans le dernier exercice, la régression linéaire et de crête semblent produire des résultats similaires. Il serait approprié de sélectionner l’un ou l’autre de ces modèles. Cependant, vous pouvez vérifier la performance prédictive sur l’ensemble de test pour voir si l’un peut être plus performant que l’autre.

Vous utiliserez la racine de l’erreur quadratique moyenne (le RMSE) comme métrique. Le dictionnaire models, qui contient les noms et les instances des deux modèles, a été préchargé pour vous, ainsi que les tableaux d’apprentissage et de cible X_train_scaled, X_test_scaled, y_train et y_test.

Cet exercice fait partie du cours

Apprentissage supervisé avec scikit-learn

Afficher le cours

Instructions

Importez root_mean_squared_error.
Ajustez le modèle aux caractéristiques d’apprentissage mises à l’échelle et aux étiquettes d’apprentissage.
Faites des prédictions en utilisant les caractéristiques de test mises à l’échelle.
Calculez le RMSE en passant les étiquettes de l’ensemble de test et les étiquettes prédites.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import root_mean_squared_error
from ____.____ import ____

for name, model in models.items():
  # Fit the model to the training data
  ____
  
  # Make predictions on the test set
  y_pred = ____
  
  # Calculate the test_rmse
  test_rmse = ____(____, ____)
  print("{} Test Set RMSE: {}".format(name, test_rmse))

Modifier et exécuter le code

Cet exercice fait partie du cours

Apprentissage supervisé avec scikit-learn

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous découvrirez les problèmes de classification et apprendrez à les résoudre à l’aide de techniques d’apprentissage supervisé. Vous apprendrez à diviser les données en ensembles d’apprentissage et de test, à adapter un modèle, à faire des prédictions et à évaluer la précision. Vous découvrirez la relation entre la complexité du modèle et la performance, en appliquant ce que vous avez appris à un ensemble de données sur le taux de perte de clients, où vous classerez l’état de désabonnement des clients d’une entreprise de télécommunications.

Exercise 1: Machine learning avec scikit-learn Exercise 2: Classification binaire Exercise 3: Le flux de travail d’apprentissage supervisé Exercise 4: Le défi de la classification Exercise 5: k voisins les plus proches : ajustement Exercise 6: k voisins les plus proches : prédiction Exercise 7: Mesurer la performance du modèle Exercise 8: Séparation apprentissage/test et calcul de la précision Exercise 9: Surajustement et sous-ajustement Exercise 10: Visualiser la complexité du modèle

Dans ce chapitre, vous découvrirez la régression et vous construirez des modèles pour prédire les valeurs des ventes à l’aide d’un ensemble de données sur les dépenses publicitaires. Vous apprendrez les mécanismes de la régression linéaire et les métriques de performance courantes telles que le R-carré et la racine de l’erreur quadratique moyenne. Vous effectuerez une validation croisée à k blocs et appliquerez une régularisation aux modèles de régression afin de réduire le risque de surajustement.

Exercise 1: Introduction à la régression Exercise 2: Création de caractéristiques Exercise 3: Construire un modèle de régression linéaire Exercise 4: Visualisation d’un modèle de régression linéaire Exercise 5: Les bases de la régression linéaire Exercise 6: Ajustement et prédiction de la régression Exercise 7: Performance de la régression Exercise 8: Validation croisée Exercise 9: Validation croisée pour le R-carré Exercise 10: Analyse des métriques de validation croisée Exercise 11: Régression régularisée Exercise 12: Régression régularisée : Crête Exercise 13: Régression Lasso pour l’importance des caractéristiques

Après avoir entraîné des modèles, vous allez maintenant apprendre à les évaluer. Dans ce chapitre, vous découvrirez plusieurs métriques ainsi qu’une technique de visualisation permettant d’analyser les performances des modèles de classification utilisant scikit-learn. Vous apprendrez également à optimiser les modèles de classification et de régression grâce à l’ajustement des hyperparamètres.

Exercise 1: Quelle est la qualité de votre modèle ?Exercise 2: Décider d’une métrique primaire Exercise 3: Évaluation d’un classificateur de prédiction du diabète Exercise 4: Régression logistique et courbe ROC Exercise 5: Construire un modèle de régression logistique Exercise 6: La courbe ROC Exercise 7: Aire sous la courbe ROC (ROC AUC)Exercise 8: Réglage des hyperparamètres Exercise 9: Réglage des hyperparamètres avec GridSearchCV Exercise 10: Réglage des hyperparamètres avec RandomizedSearchCV

Apprenez à imputer les valeurs manquantes, à convertir les données catégorielles en valeurs numériques, à mettre à l’échelle les données, à évaluer simultanément plusieurs modèles d’apprentissage supervisé et à créer des pipelines pour rationaliser votre flux de travail.

Exercise 1: Prétraitement des données Exercise 2: Création de variables nominales Exercise 3: Régression avec caractéristiques catégorielles Exercise 4: Traitement des données manquantes Exercise 5: Suppression des données manquantes Exercise 6: Pipeline pour la prédiction du genre des chansons : I Exercise 7: Pipeline pour la prédiction du genre des chansons : II Exercise 8: Centrage et mise à l’échelle Exercise 9: Centrage et mise à l’échelle pour la régression Exercise 10: Centrage et mise à l’échelle pour la classification Exercise 11: Évaluation de plusieurs modèles Exercise 12: Visualisation de la performance des modèles de régression Exercise 13: Prédiction sur l’ensemble de test

Exercice en cours

Exercise 14: Visualisation des performances des modèles de classification Exercise 15: Pipeline pour prédire la popularité des chansons Exercise 16: Félicitations