Importance des colonnes et prédiction du défaut
Lorsque vous utilisez plusieurs jeux d’entraînement avec de nombreux groupes de colonnes, il est important de garder un œil sur celles qui comptent et celles qui ne comptent pas. Entretenir un ensemble de colonnes peut être coûteux ou chronophage, alors qu’elles n’ont peut-être aucun impact sur loan_status.
Les données X pour cet exercice ont été créées avec le code suivant :
X = cr_loan_prep[['person_income','loan_int_rate',
'loan_percent_income','loan_amnt',
'person_home_ownership_MORTGAGE','loan_grade_F']]
Entraînez un modèle XGBClassifier() sur ces données et vérifiez l’importance des colonnes pour voir comment chacune contribue à prédire loan_status.
Le jeu de données cr_loan_pret ainsi que X_train et y_train ont été chargés dans l’espace de travail.
Cet exercice fait partie du cours
Modélisation du risque de crédit en Python
Instructions
- Créez et entraînez un modèle
XGBClassifier()sur les jeux d’entraînementX_trainety_train, puis stockez-le dansclf_gbt. - Affichez l’importance des colonnes de
clf_gbten utilisant.get_booster()puis.get_score().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create and train the model on the training data
____ = xgb.____().____(____,np.ravel(____))
# Print the column importances from the model
print(clf_gbt.____().____(importance_type = 'weight'))