Aan de slagGa gratis aan de slag

Kans op wanbetaling voorspellen

Alle gegevensverwerking is klaar en het is tijd om voorspellingen voor de kans op wanbetaling te maken. Je wilt een LogisticRegression()-model trainen op de gegevens en bekijken hoe het de kans op wanbetaling voorspelt.

Zodat je beter begrijpt wat het model met predict_proba oplevert, kijk je naar een voorbeeldrecord naast de voorspelde kans op wanbetaling. Hoe zien de eerste vijf voorspellingen eruit ten opzichte van de echte waarden van loan_status?

De gegevensset cr_loan_prep en X_train, X_test, y_train en y_test zijn al in de werkruimte geladen.

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in Python

Cursus bekijken

Oefeninstructies

  • Train een logistic regression-model op de trainingsgegevens en sla het op als clf_logistic.
  • Gebruik predict_proba() op de testgegevens om de voorspellingen te maken en sla ze op in preds.
  • Maak twee dataframes, preds_df en true_df, om de eerste vijf voorspellingen en de echte loan_status-waarden op te slaan.
  • Print true_df en preds_df samen als één set met .concat().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Train the logistic regression model on the training data
____ = ____(solver='lbfgs').____(____, np.ravel(____))

# Create predictions of probability for loan status using test data
____ = clf_logistic.____(____)

# Create dataframes of first five predictions, and first five true labels
____ = pd.DataFrame(____[:,1][0:5], columns = ['prob_default'])
____ = y_test.____()

# Concatenate and print the two data frames for comparison
print(pd.____([true_df.reset_index(drop = True), preds_df], axis = 1))
Code bewerken en uitvoeren