Empilement de modèles I
Il est temps de passer au stacking. Pour mettre en œuvre cette approche, vous allez suivre les 6 étapes vues dans la vidéo précédente :
- Scinder les données d’entraînement en deux parties
- Entraîner plusieurs modèles sur la Partie 1
- Générer des prédictions sur la Partie 2
- Générer des prédictions sur les données de test
- Entraîner un nouveau modèle sur la Partie 2 en utilisant les prédictions comme variables
- Générer des prédictions sur les données de test avec le modèle de niveau 2
Les DataFrames train et test sont déjà disponibles dans votre espace de travail. features est une liste de colonnes à utiliser pour l’entraînement sur les données de la Partie 1 et est également disponible. La variable cible s’appelle "fare_amount".
Cet exercice fait partie du cours
Gagner une compétition Kaggle en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
# Split train data into two parts
part_1, part_2 = ____(train, test_size=____, random_state=123)
# Train a Gradient Boosting model on Part 1
gb = GradientBoostingRegressor().____(____[features], ____.fare_amount)
# Train a Random Forest model on Part 1
rf = RandomForestRegressor().____(____[features], ____.fare_amount)