Relatório de classificação de inadimplência
É hora de analisar mais de perto a avaliação do modelo. Aqui é onde definir o limiar para a probabilidade de inadimplência vai ajudar você a analisar o desempenho do modelo por meio de um relatório de classificação.
Criar um data frame com as probabilidades facilita o trabalho, porque você pode usar todo o poder do pandas. Aplique o limiar aos dados e verifique a contagem de valores para ambas as classes de loan_status para ver quantas previsões de cada classe estão sendo geradas. Isso vai ajudar a interpretar as pontuações do relatório de classificação.
O conjunto de dados cr_loan_prep, o modelo de regressão logística treinado clf_logistic, os valores reais de status do empréstimo y_test e as probabilidades previstas, preds, estão carregados no workspace.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em Python
Instruções do exercício
- Crie um data frame apenas com as probabilidades de inadimplência a partir de
preds, chamadopreds_df. - Redefina os valores de
loan_statuscom base em um limiar de0.50para probabilidade de inadimplência empreds_df. - Imprima a contagem de valores (número de linhas) para cada
loan_status. - Imprima o relatório de classificação usando
y_testepreds_df.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a dataframe for the probabilities of default
____ = pd.____(____[:,1], columns = ['prob_default'])
# Reassign loan status based on the threshold
____[____] = ____[____].apply(lambda x: 1 if x > ____ else 0)
# Print the row counts for each loan status
print(____[____].____())
# Print the classification report
target_names = ['Non-Default', 'Default']
print(____(____, ____['loan_status'], target_names=target_names))