IniziaInizia gratis

Replica lo score di validazione

Nel video hai visto sia gli score di validazione sia quelli della Public Leaderboard. Tuttavia, gli esempi di codice sono disponibili solo per i dati di test. Per ottenere gli score di validazione devi ripetere lo stesso processo sul set di holdout.

In questo capitolo lavorerai con i dati della competizione New York City Taxi. Il problema consiste nel prevedere l'importo della corsa in taxi a New York City. La metrica della competizione è la root mean squared error.

Il primo obiettivo è valutare il modello Baseline sui dati di validazione. Replicherai la Baseline più semplice basata sulla media di "fare_amount". Ricorda che come strategia di validazione abbiamo usato uno split holdout del 30%, con validation_train come train e validation_test come DataFrame di holdout. Entrambi sono disponibili nel tuo workspace.

Questo esercizio fa parte del corso

Vincere una competizione Kaggle con Python

Visualizza il corso

Istruzioni dell'esercizio

  • Calcola la media di "fare_amount" sull’intero DataFrame validation_train.
  • Assegna questo valore di previsione ingenua a tutte le previsioni dell’holdout. Salvale nella colonna "pred".

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt

# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])

# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____

# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))
Modifica ed esegui il codice