Linha de base baseada na data
Nós já construímos 3 modelos de linha de base diferentes. Para praticar mais, vamos criar mais alguns. O primeiro modelo é baseado nas variáveis de agrupamento. É claro que a tarifa da corrida pode depender do período do dia. Por exemplo, os preços podem ser mais altos no horário de pico.
Seu objetivo é construir um modelo de linha de base que atribua a média de "fare_amount" para a hora correspondente. Por enquanto, você vai criar o modelo para todo o conjunto train e fazer previsões para o conjunto de dados test.
Os DataFrames train e test estão disponíveis no seu ambiente. Além disso, a coluna "pickup_datetime" em ambos os DataFrames já foi convertida para um objeto datetime para você.
Este exercício faz parte do curso
Vencendo uma competição do Kaggle em Python
Instruções do exercício
- Extraia a hora da coluna "pickup_datetime" nos DataFrames
trainetest. - Calcule a média de "fare_amount" para cada hora nos dados de treino.
- Faça as previsões do
testusando o métodomap()dopandase o agrupamento obtido. - Grave as previsões em um arquivo.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Get pickup hour from the pickup_datetime column
train['hour'] = train['pickup_datetime'].dt.____
test['hour'] = test['pickup_datetime'].dt.____
# Calculate average fare_amount grouped by pickup hour
hour_groups = train.____('____')['____'].mean()
# Make predictions on the test set
test['fare_amount'] = test.hour.map(____)
# Write predictions
test[['id','fare_amount']].____('hour_mean_sub.csv', index=False)