Reproduire le score de validation
Vous avez vu les scores de validation et du Public Leaderboard dans la vidéo. Cependant, les exemples de code ne sont disponibles que pour les données de test. Pour obtenir les scores de validation, vous devez répéter le même processus sur le jeu de réserve.
Dans ce chapitre, vous allez travailler avec les données de la compétition New York City Taxi. Le problème consiste à prédire le montant de la course pour un trajet en taxi à New York. La métrique de la compétition est la racine de l’erreur quadratique moyenne.
Votre premier objectif est d’évaluer le modèle de base sur les données de validation. Vous allez reproduire le modèle de base le plus simple, basé sur la moyenne de "fare_amount". Pour rappel, comme stratégie de validation, nous avons utilisé une séparation 70/30 avec validation_train pour l’entraînement et validation_test comme DataFrame de réserve. Les deux sont disponibles dans votre environnement de travail.
Cet exercice fait partie du cours
Gagner une compétition Kaggle en Python
Instructions
- Calculez la moyenne de
"fare_amount"sur l’ensemble du DataFramevalidation_train. - Affectez cette valeur de prédiction naïve à toutes les prédictions du jeu de réserve. Stockez-les dans la colonne
"pred".
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt
# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])
# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____
# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))