ComenzarEmpieza gratis

Línea base basada en la fecha

Ya hemos construido 3 modelos base diferentes. Para practicar un poco más, vamos a crear un par más. El primer modelo se basa en variables de agrupación. Está claro que la tarifa del viaje puede depender del momento del día. Por ejemplo, los precios pueden ser más altos durante las horas punta.

Tu objetivo es construir un modelo base que asigne la "fare_amount" media para la hora correspondiente. Por ahora, crearás el modelo para todos los datos de train y harás predicciones para el conjunto de test.

Los DataFrames train y test están disponibles en tu espacio de trabajo. Además, la columna "pickup_datetime" en ambos DataFrames ya se ha convertido en un objeto datetime para ti.

Este ejercicio forma parte del curso

Cómo ganar una competición de Kaggle con Python

Ver curso

Instrucciones del ejercicio

  • Obtén la hora de la columna "pickup_datetime" para los DataFrames train y test.
  • Calcula la "fare_amount" media para cada hora en los datos de train.
  • Haz predicciones sobre test usando el método map() de pandas y el agrupamiento obtenido.
  • Escribe las predicciones en el archivo.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Get pickup hour from the pickup_datetime column
train['hour'] = train['pickup_datetime'].dt.____
test['hour'] = test['pickup_datetime'].dt.____

# Calculate average fare_amount grouped by pickup hour 
hour_groups = train.____('____')['____'].mean()

# Make predictions on the test set
test['fare_amount'] = test.hour.map(____)

# Write predictions
test[['id','fare_amount']].____('hour_mean_sub.csv', index=False)
Editar y ejecutar código