Apilado de modelos I
Ahora es el momento del stacking. Para implementarlo, seguirás los 6 pasos que vimos en el vídeo anterior:
- Divide los datos de entrenamiento en dos partes
- Entrena varios modelos en la Parte 1
- Genera predicciones sobre la Parte 2
- Genera predicciones sobre los datos de test
- Entrena un nuevo modelo en la Parte 2 usando las predicciones como características
- Genera predicciones sobre los datos de test usando el modelo de 2.º nivel
Los DataFrames train y test ya están disponibles en tu espacio de trabajo. features es una lista de columnas que se usarán para entrenar con los datos de la Parte 1 y también está disponible en tu espacio de trabajo. El nombre de la variable objetivo es "fare_amount".
Este ejercicio forma parte del curso
Cómo ganar una competición de Kaggle con Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
# Split train data into two parts
part_1, part_2 = ____(train, test_size=____, random_state=123)
# Train a Gradient Boosting model on Part 1
gb = GradientBoostingRegressor().____(____[features], ____.fare_amount)
# Train a Random Forest model on Part 1
rf = RandomForestRegressor().____(____[features], ____.fare_amount)