Replica lo score di validazione

Nel video hai visto sia gli score di validazione sia quelli della Public Leaderboard. Tuttavia, gli esempi di codice sono disponibili solo per i dati di test. Per ottenere gli score di validazione devi ripetere lo stesso processo sul set di holdout.

In questo capitolo lavorerai con i dati della competizione New York City Taxi. Il problema consiste nel prevedere l'importo della corsa in taxi a New York City. La metrica della competizione è la root mean squared error.

Il primo obiettivo è valutare il modello Baseline sui dati di validazione. Replicherai la Baseline più semplice basata sulla media di "fare_amount". Ricorda che come strategia di validazione abbiamo usato uno split holdout del 30%, con validation_train come train e validation_test come DataFrame di holdout. Entrambi sono disponibili nel tuo workspace.

Questo esercizio fa parte del corso

Vincere una competizione Kaggle con Python

Visualizza corso

Istruzioni dell'esercizio

Calcola la media di "fare_amount" sull’intero DataFrame validation_train.
Assegna questo valore di previsione ingenua a tutte le previsioni dell’holdout. Salvale nella colonna "pred".

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt

# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])

# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____

# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))

Modifica ed esegui il codice