ComeçarComece de graça

Baseline com gradient boosting

Vamos construir um baseline final usando Random Forest. No vídeo, você viu uma grande melhoria na pontuação ao sair do baseline por agrupamento para o Gradient Boosting. Agora, você vai usar o Random Forest do sklearn para melhorar ainda mais esse resultado.

O objetivo deste exercício é pegar as variáveis numéricas e treinar um modelo de Random Forest sem nenhum ajuste de hiperparâmetros. Depois, você poderá fazer previsões no conjunto de teste e validar o resultado no Public Leaderboard. Observe que você já tem a feature "hour", que também pode ser usada como entrada do modelo.

Este exercício faz parte do curso

Vencendo uma competição do Kaggle em Python

Ver curso

Instruções do exercício

  • Adicione a feature "hour" à lista de variáveis numéricas.
  • Treine o RandomForestRegressor nos dados de treino com as variáveis numéricas e "fare_amount" como alvo.
  • Use o modelo Random Forest treinado para fazer previsões nos dados de teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from sklearn.ensemble import RandomForestRegressor

# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
            'dropoff_latitude', 'passenger_count', ____]

# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)

# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])

# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)
Editar e executar o código