Importanza delle colonne e previsione del default

Quando usi più set di training con molti gruppi di colonne diverse, è importante tenere d'occhio quali colonne contano davvero e quali no. Mantenere un insieme di colonne può essere costoso o richiedere tempo, anche se magari non hanno alcun impatto su loan_status.

I dati X per questo esercizio sono stati creati con il seguente codice:

X = cr_loan_prep[['person_income','loan_int_rate',
                  'loan_percent_income','loan_amnt',
                  'person_home_ownership_MORTGAGE','loan_grade_F']]

Allena un modello XGBClassifier() su questi dati e controlla l'importanza delle colonne per vedere come ciascuna contribuisce a predire loan_status.

L'insieme di dati cr_loan_pret insieme a X_train e y_train è stato caricato nell'ambiente di lavoro.

Questo esercizio fa parte del corso

Credit Risk Modeling in Python

Visualizza corso

Istruzioni dell'esercizio

Crea e allena un modello XGBClassifier() sui set di training X_train e y_train e salvalo come clf_gbt.
Stampa le importanze delle colonne di clf_gbt usando .get_booster() e .get_score().

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create and train the model on the training data
____ = xgb.____().____(____,np.ravel(____))

# Print the column importances from the model
print(clf_gbt.____().____(importance_type = 'weight'))

Modifica ed esegui il codice