Reproducir la puntuación de validación

Has visto tanto las puntuaciones de validación como del Public Leaderboard en el vídeo. Sin embargo, los ejemplos de código solo están disponibles para los datos de test. Para obtener las puntuaciones de validación, tienes que repetir el mismo proceso en el conjunto de retención.

A lo largo de este capítulo, trabajarás con los datos de la competición New York City Taxi. El problema consiste en predecir el importe de la tarifa de un viaje en taxi en la ciudad de Nueva York. La métrica de la competición es el error cuadrático medio raíz.

El primer objetivo es evaluar el modelo de referencia (Baseline) en los datos de validación. Vas a reproducir la Baseline más simple basada en la media de "fare_amount". Recuerda que como estrategia de validación usamos una partición holdout del 30 % con validation_train como entrenamiento y validation_test como DataFrames de retención. Ambos están disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Cómo ganar una competición de Kaggle con Python

Ver curso

Instrucciones del ejercicio

Calcula la media de "fare_amount" sobre todo el DataFrame validation_train.
Asigna este valor de predicción ingenua a todas las predicciones del holdout. Guárdalas en la columna "pred".

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

import numpy as np
from sklearn.metrics import mean_squared_error
from math import sqrt

# Calculate the mean fare_amount on the validation_train data
naive_prediction = np.____(____['____'])

# Assign naive prediction to all the holdout observations
validation_test['pred'] = ____

# Measure the local RMSE
rmse = sqrt(mean_squared_error(validation_test['fare_amount'], validation_test['pred']))
print('Validation RMSE for Baseline I model: {:.3f}'.format(rmse))

Editar y ejecutar código