Validadatiescore reproduceren
Je hebt in de video zowel validatie- als Public Leaderboard-scores gezien. De codevoorbeelden zijn echter alleen beschikbaar voor de testgegevens. Om de validatiescores te krijgen, moet je hetzelfde proces herhalen op de holdoutset.
In dit hoofdstuk werk je met gegevens uit de New York City Taxi-wedstrijd. Het probleem is om het tariefbedrag voor een taxirit in New York City te voorspellen. De competitie-metriek is de root mean squared error.
Het eerste doel is om het Baseline-model op de validatiegegevens te evalueren. Je gaat de simpelste Baseline repliceren op basis van het gemiddelde van "fare_amount". Onthoud dat we als validatiestrategie een 30% holdout-split gebruikten met validation_train als train- en validation_test als holdout-DataFrame. Beide zijn beschikbaar in je werkomgeving.
Deze oefening maakt deel uit van de cursus
Een Kaggle-competitie winnen met Python
Oefeninstructies
- Bereken het gemiddelde van
"fare_amount"over de volledigevalidation_train-DataFrame. - Ken deze naïeve voorspelwaarde toe aan alle holdoutvoorspellingen. Sla ze op in de kolom
"pred".
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt
# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])
# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____
# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))