Replicar pontuação de validação

Você viu as pontuações de validação e do Public Leaderboard no vídeo. No entanto, os exemplos de código estão disponíveis apenas para os dados de teste. Para obter as pontuações de validação, você precisa repetir o mesmo processo no conjunto de holdout.

Ao longo deste capítulo, você vai trabalhar com os dados da competição New York City Taxi. O problema é prever o valor da corrida de táxi em Nova York. A métrica da competição é o erro quadrático médio raiz (RMSE).

O primeiro objetivo é avaliar o modelo Baseline nos dados de validação. Você vai replicar a Baseline mais simples, baseada na média de "fare_amount". Lembre-se de que, como estratégia de validação, usamos uma divisão holdout de 30%, com validation_train como treino e validation_test como DataFrames de holdout. Ambos estão disponíveis no seu workspace.

Este exercício faz parte do curso

Vencendo uma competição do Kaggle em Python

Ver curso

Instruções do exercício

Calcule a média de "fare_amount" em todo o DataFrame validation_train.
Atribua esse valor de previsão ingênua a todas as previsões do holdout. Armazene-as na coluna "pred".

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt

# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])

# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____

# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))

Editar e executar o código