Prevendo a probabilidade de inadimplência
Todo o processamento dos dados está concluído e é hora de começar a criar previsões de probabilidade de inadimplência. Você quer treinar um modelo LogisticRegression() nos dados e analisar como ele prevê a probabilidade de inadimplência.
Para entender melhor o que o modelo produz com predict_proba, você deve observar um registro de exemplo junto com a probabilidade prevista de inadimplência. Como as cinco primeiras previsões se comparam aos valores reais de loan_status?
O conjunto de dados cr_loan_prep, além de X_train, X_test, y_train e y_test, já foi carregado no workspace.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em Python
Instruções do exercício
- Treine um modelo de regressão logística nos dados de treino e armazene-o como
clf_logistic. - Use
predict_proba()nos dados de teste para criar as previsões e armazene-as empreds. - Crie dois data frames,
preds_dfetrue_df, para guardar as cinco primeiras previsões e os valores reais deloan_status. - Imprima
true_dfepreds_dfem um único conjunto usando.concat().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Train the logistic regression model on the training data
____ = ____(solver='lbfgs').____(____, np.ravel(____))
# Create predictions of probability for loan status using test data
____ = clf_logistic.____(____)
# Create dataframes of first five predictions, and first five true labels
____ = pd.DataFrame(____[:,1][0:5], columns = ['prob_default'])
____ = y_test.____()
# Concatenate and print the two data frames for comparison
print(pd.____([true_df.reset_index(drop = True), preds_df], axis = 1))