Replicar pontuação de validação
Você viu as pontuações de validação e do Public Leaderboard no vídeo. No entanto, os exemplos de código estão disponíveis apenas para os dados de teste. Para obter as pontuações de validação, você precisa repetir o mesmo processo no conjunto de holdout.
Ao longo deste capítulo, você vai trabalhar com os dados da competição New York City Taxi. O problema é prever o valor da corrida de táxi em Nova York. A métrica da competição é o erro quadrático médio raiz (RMSE).
O primeiro objetivo é avaliar o modelo Baseline nos dados de validação. Você vai replicar a Baseline mais simples, baseada na média de "fare_amount". Lembre-se de que, como estratégia de validação, usamos uma divisão holdout de 30%, com validation_train como treino e validation_test como DataFrames de holdout. Ambos estão disponíveis no seu workspace.
Este exercício faz parte do curso
Vencendo uma competição do Kaggle em Python
Instruções do exercício
- Calcule a média de
"fare_amount"em todo o DataFramevalidation_train. - Atribua esse valor de previsão ingênua a todas as previsões do holdout. Armazene-as na coluna
"pred".
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt
# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])
# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____
# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))