Empilement de modèles I

Il est temps de passer au stacking. Pour mettre en œuvre cette approche, vous allez suivre les 6 étapes vues dans la vidéo précédente :

Scinder les données d’entraînement en deux parties
Entraîner plusieurs modèles sur la Partie 1
Générer des prédictions sur la Partie 2
Générer des prédictions sur les données de test
Entraîner un nouveau modèle sur la Partie 2 en utilisant les prédictions comme variables
Générer des prédictions sur les données de test avec le modèle de niveau 2

Les DataFrames train et test sont déjà disponibles dans votre espace de travail. features est une liste de colonnes à utiliser pour l’entraînement sur les données de la Partie 1 et est également disponible. La variable cible s’appelle "fare_amount".

Cet exercice fait partie du cours

Gagner une compétition Kaggle en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor

# Split train data into two parts
part_1, part_2 = ____(train, test_size=____, random_state=123)

# Train a Gradient Boosting model on Part 1
gb = GradientBoostingRegressor().____(____[features], ____.fare_amount)

# Train a Random Forest model on Part 1
rf = RandomForestRegressor().____(____[features], ____.fare_amount)

Modifier et exécuter le code