Importance des colonnes et prédiction du défaut

Lorsque vous utilisez plusieurs jeux d’entraînement avec de nombreux groupes de colonnes, il est important de garder un œil sur celles qui comptent et celles qui ne comptent pas. Entretenir un ensemble de colonnes peut être coûteux ou chronophage, alors qu’elles n’ont peut-être aucun impact sur loan_status.

Les données X pour cet exercice ont été créées avec le code suivant :

X = cr_loan_prep[['person_income','loan_int_rate',
                  'loan_percent_income','loan_amnt',
                  'person_home_ownership_MORTGAGE','loan_grade_F']]

Entraînez un modèle XGBClassifier() sur ces données et vérifiez l’importance des colonnes pour voir comment chacune contribue à prédire loan_status.

Le jeu de données cr_loan_pret ainsi que X_train et y_train ont été chargés dans l’espace de travail.

Cet exercice fait partie du cours

<cours>Modélisation du risque de crédit en Python</cours>

Voir le cours

Instructions de l’exercice

Créez et entraînez un modèle XGBClassifier() sur les jeux d’entraînement X_train et y_train, puis stockez-le dans clf_gbt.
Affichez l’importance des colonnes de clf_gbt en utilisant .get_booster() puis .get_score().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create and train the model on the training data
____ = xgb.____().____(____,np.ravel(____))

# Print the column importances from the model
print(clf_gbt.____().____(importance_type = 'weight'))

Modifier et exécuter le code