Données vues vs non vues
Les modèles ont généralement une meilleure précision sur les observations qu’ils ont déjà vues. Dans le jeu de données sur les bonbons, prédire la popularité des Skittles sera probablement plus précis que prédire celle des Andes Mints ; les Skittles sont dans le jeu de données, alors que les Andes Mints ne le sont pas.
Vous avez entraîné un modèle sur 50 bonbons à partir du jeu de données X_train et vous devez indiquer à quel point le modèle est précis pour prédire la popularité des 50 bonbons sur lesquels il a été construit, ainsi que des 35 bonbons (X_test) qu’il n’a jamais vus. Vous utiliserez l’erreur absolue moyenne, mae(), comme métrique de précision.
Cet exercice fait partie du cours
Validation des modèles en Python
Instructions
- En utilisant
X_trainetX_testcomme données d’entrée, créez des tableaux de prédictions avecmodel.predict(). - Calculez la précision du modèle sur les données qu’il a vues et sur celles qu’il n’a jamais vues.
- Utilisez les instructions d’affichage pour imprimer les données vues et non vues.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# The model is fit using X_train and y_train
model.fit(X_train, y_train)
# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)
# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)
# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))