Replica lo score di validazione
Nel video hai visto sia gli score di validazione sia quelli della Public Leaderboard. Tuttavia, gli esempi di codice sono disponibili solo per i dati di test. Per ottenere gli score di validazione devi ripetere lo stesso processo sul set di holdout.
In questo capitolo lavorerai con i dati della competizione New York City Taxi. Il problema consiste nel prevedere l'importo della corsa in taxi a New York City. La metrica della competizione è la root mean squared error.
Il primo obiettivo è valutare il modello Baseline sui dati di validazione. Replicherai la Baseline più semplice basata sulla media di "fare_amount". Ricorda che come strategia di validazione abbiamo usato uno split holdout del 30%, con validation_train come train e validation_test come DataFrame di holdout. Entrambi sono disponibili nel tuo workspace.
Questo esercizio fa parte del corso
Vincere una competizione Kaggle con Python
Istruzioni dell'esercizio
- Calcola la media di
"fare_amount"sull’intero DataFramevalidation_train. - Assegna questo valore di previsione ingenua a tutte le previsioni dell’holdout. Salvale nella colonna
"pred".
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt
# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])
# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____
# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))