ComeçarComece de graça

Linha de base baseada na data

Nós já construímos 3 modelos de linha de base diferentes. Para praticar mais, vamos criar mais alguns. O primeiro modelo é baseado nas variáveis de agrupamento. É claro que a tarifa da corrida pode depender do período do dia. Por exemplo, os preços podem ser mais altos no horário de pico.

Seu objetivo é construir um modelo de linha de base que atribua a média de "fare_amount" para a hora correspondente. Por enquanto, você vai criar o modelo para todo o conjunto train e fazer previsões para o conjunto de dados test.

Os DataFrames train e test estão disponíveis no seu ambiente. Além disso, a coluna "pickup_datetime" em ambos os DataFrames já foi convertida para um objeto datetime para você.

Este exercício faz parte do curso

Vencendo uma competição do Kaggle em Python

Ver curso

Instruções do exercício

  • Extraia a hora da coluna "pickup_datetime" nos DataFrames train e test.
  • Calcule a média de "fare_amount" para cada hora nos dados de treino.
  • Faça as previsões do test usando o método map() do pandas e o agrupamento obtido.
  • Grave as previsões em um arquivo.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Get pickup hour from the pickup_datetime column
train['hour'] = train['pickup_datetime'].dt.____
test['hour'] = test['pickup_datetime'].dt.____

# Calculate average fare_amount grouped by pickup hour 
hour_groups = train.____('____')['____'].mean()

# Make predictions on the test set
test['fare_amount'] = test.hour.map(____)

# Write predictions
test[['id','fare_amount']].____('hour_mean_sub.csv', index=False)
Editar e executar o código