Línea base basada en la fecha
Ya hemos construido 3 modelos base diferentes. Para practicar un poco más, vamos a crear un par más. El primer modelo se basa en variables de agrupación. Está claro que la tarifa del viaje puede depender del momento del día. Por ejemplo, los precios pueden ser más altos durante las horas punta.
Tu objetivo es construir un modelo base que asigne la "fare_amount" media para la hora correspondiente. Por ahora, crearás el modelo para todos los datos de train y harás predicciones para el conjunto de test.
Los DataFrames train y test están disponibles en tu espacio de trabajo. Además, la columna "pickup_datetime" en ambos DataFrames ya se ha convertido en un objeto datetime para ti.
Este ejercicio forma parte del curso
Cómo ganar una competición de Kaggle con Python
Instrucciones del ejercicio
- Obtén la hora de la columna "pickup_datetime" para los DataFrames
trainytest. - Calcula la "fare_amount" media para cada hora en los datos de train.
- Haz predicciones sobre
testusando el métodomap()depandasy el agrupamiento obtenido. - Escribe las predicciones en el archivo.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Get pickup hour from the pickup_datetime column
train['hour'] = train['pickup_datetime'].dt.____
test['hour'] = test['pickup_datetime'].dt.____
# Calculate average fare_amount grouped by pickup hour
hour_groups = train.____('____')['____'].mean()
# Make predictions on the test set
test['fare_amount'] = test.hour.map(____)
# Write predictions
test[['id','fare_amount']].____('hour_mean_sub.csv', index=False)