Modelo base con Gradient Boosting
Vamos a construir un último modelo base con Random Forest. En el vídeo viste una gran mejora al pasar del modelo base por agrupación a Gradient Boosting. Ahora usarás el Random Forest de sklearn para mejorar aún más esa puntuación.
El objetivo de este ejercicio es tomar características numéricas y entrenar un modelo de Random Forest sin ningún ajuste. Después, podrás generar predicciones para el conjunto de prueba y validar el resultado en el Public Leaderboard. Ten en cuenta que ya tienes una característica "hour" que también puede usarse como entrada del modelo.
Este ejercicio forma parte del curso
Cómo ganar una competición de Kaggle con Python
Instrucciones del ejercicio
- Añade la característica
"hour"a la lista de características numéricas. - Ajusta el
RandomForestRegressorsobre los datos de entrenamiento con las características numéricas y"fare_amount"como variable objetivo. - Usa el modelo de Random Forest entrenado para hacer predicciones sobre los datos de prueba.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from sklearn.ensemble import RandomForestRegressor
# Select only numeric features
features = ['pickup_longitude', 'pickup_latitude', 'dropoff_longitude',
'dropoff_latitude', 'passenger_count', ____]
# Train a Random Forest model
rf = RandomForestRegressor()
rf.____(train[____], train.fare_amount)
# Make predictions on the test data
test['fare_amount'] = ____.____(test[features])
# Write predictions
test[['id','fare_amount']].to_csv('rf_sub.csv', index=False)