Kans op wanbetaling voorspellen

Alle gegevensverwerking is klaar en het is tijd om voorspellingen voor de kans op wanbetaling te maken. Je wilt een LogisticRegression()-model trainen op de gegevens en bekijken hoe het de kans op wanbetaling voorspelt.

Zodat je beter begrijpt wat het model met predict_proba oplevert, kijk je naar een voorbeeldrecord naast de voorspelde kans op wanbetaling. Hoe zien de eerste vijf voorspellingen eruit ten opzichte van de echte waarden van loan_status?

De gegevensset cr_loan_prep en X_train, X_test, y_train en y_test zijn al in de werkruimte geladen.

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in Python

Bekijk cursus

Oefeninstructies

Train een logistic regression-model op de trainingsgegevens en sla het op als clf_logistic.
Gebruik predict_proba() op de testgegevens om de voorspellingen te maken en sla ze op in preds.
Maak twee dataframes, preds_df en true_df, om de eerste vijf voorspellingen en de echte loan_status-waarden op te slaan.
Print true_df en preds_df samen als één set met .concat().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Train the logistic regression model on the training data
____ = ____(solver='lbfgs').____(____, np.ravel(____))

# Create predictions of probability for loan status using test data
____ = clf_logistic.____(____)

# Create dataframes of first five predictions, and first five true labels
____ = pd.DataFrame(____[:,1][0:5], columns = ['prob_default'])
____ = y_test.____()

# Concatenate and print the two data frames for comparison
print(pd.____([true_df.reset_index(drop = True), preds_df], axis = 1))

Code bewerken en uitvoeren