Importância das colunas e previsão de inadimplência
Ao usar múltiplos conjuntos de treino com vários grupos de colunas, é importante ficar de olho em quais colunas realmente importam e quais não. Manter um conjunto de colunas pode ser caro ou demorado, mesmo quando elas não têm impacto em loan_status.
Os dados X para este exercício foram criados com o seguinte código:
X = cr_loan_prep[['person_income','loan_int_rate',
'loan_percent_income','loan_amnt',
'person_home_ownership_MORTGAGE','loan_grade_F']]
Treine um modelo XGBClassifier() com esses dados e verifique a importância das colunas para ver como cada uma contribui para prever loan_status.
O conjunto de dados cr_loan_pret, junto com X_train e y_train, já foi carregado no ambiente de trabalho.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em Python
Instruções do exercício
- Crie e treine um modelo
XGBClassifier()com os conjuntos de treinoX_trainey_traine armazene-o comoclf_gbt. - Imprima as importâncias das colunas de
clf_gbtusando.get_booster()e.get_score().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create and train the model on the training data
____ = xgb.____().____(____,np.ravel(____))
# Print the column importances from the model
print(clf_gbt.____().____(importance_type = 'weight'))