Kans op wanbetaling voorspellen
Alle gegevensverwerking is klaar en het is tijd om voorspellingen voor de kans op wanbetaling te maken. Je wilt een LogisticRegression()-model trainen op de gegevens en bekijken hoe het de kans op wanbetaling voorspelt.
Zodat je beter begrijpt wat het model met predict_proba oplevert, kijk je naar een voorbeeldrecord naast de voorspelde kans op wanbetaling. Hoe zien de eerste vijf voorspellingen eruit ten opzichte van de echte waarden van loan_status?
De gegevensset cr_loan_prep en X_train, X_test, y_train en y_test zijn al in de werkruimte geladen.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in Python
Oefeninstructies
- Train een logistic regression-model op de trainingsgegevens en sla het op als
clf_logistic. - Gebruik
predict_proba()op de testgegevens om de voorspellingen te maken en sla ze op inpreds. - Maak twee dataframes,
preds_dfentrue_df, om de eerste vijf voorspellingen en de echteloan_status-waarden op te slaan. - Print
true_dfenpreds_dfsamen als één set met.concat().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Train the logistic regression model on the training data
____ = ____(solver='lbfgs').____(____, np.ravel(____))
# Create predictions of probability for loan status using test data
____ = clf_logistic.____(____)
# Create dataframes of first five predictions, and first five true labels
____ = pd.DataFrame(____[:,1][0:5], columns = ['prob_default'])
____ = y_test.____()
# Concatenate and print the two data frames for comparison
print(pd.____([true_df.reset_index(drop = True), preds_df], axis = 1))