Baseline com gradient boosting
Vamos construir um baseline final usando Random Forest. No vídeo, você viu uma grande melhoria na pontuação ao sair do baseline por agrupamento para o Gradient Boosting. Agora, você vai usar o Random Forest do sklearn para melhorar ainda mais esse resultado.
O objetivo deste exercício é pegar as variáveis numéricas e treinar um modelo de Random Forest sem nenhum ajuste de hiperparâmetros. Depois, você poderá fazer previsões no conjunto de teste e validar o resultado no Public Leaderboard. Observe que você já tem a feature "hour", que também pode ser usada como entrada do modelo.
Este exercício faz parte do curso
Vencendo uma competição do Kaggle em Python
Instruções do exercício
- Adicione a feature
"hour"à lista de variáveis numéricas. - Treine o
RandomForestRegressornos dados de treino com as variáveis numéricas e"fare_amount"como alvo. - Use o modelo Random Forest treinado para fazer previsões nos dados de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from sklearn.ensemble import RandomForestRegressor
# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
'dropoff_latitude', 'passenger_count', ____]
# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)
# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])
# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)