Importanza delle colonne e previsione del default
Quando usi più set di training con molti gruppi di colonne diverse, è importante tenere d'occhio quali colonne contano davvero e quali no. Mantenere un insieme di colonne può essere costoso o richiedere tempo, anche se magari non hanno alcun impatto su loan_status.
I dati X per questo esercizio sono stati creati con il seguente codice:
X = cr_loan_prep[['person_income','loan_int_rate',
'loan_percent_income','loan_amnt',
'person_home_ownership_MORTGAGE','loan_grade_F']]
Allena un modello XGBClassifier() su questi dati e controlla l'importanza delle colonne per vedere come ciascuna contribuisce a predire loan_status.
L'insieme di dati cr_loan_pret insieme a X_train e y_train è stato caricato nell'ambiente di lavoro.
Questo esercizio fa parte del corso
Credit Risk Modeling in Python
Istruzioni dell'esercizio
- Crea e allena un modello
XGBClassifier()sui set di trainingX_trainey_traine salvalo comeclf_gbt. - Stampa le importanze delle colonne di
clf_gbtusando.get_booster()e.get_score().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create and train the model on the training data
____ = xgb.____().____(____,np.ravel(____))
# Print the column importances from the model
print(clf_gbt.____().____(importance_type = 'weight'))