Prédire la probabilité de défaut
Tout le prétraitement des données est terminé et il est temps de commencer à créer des prédictions de probabilité de défaut. Vous souhaitez entraîner un modèle LogisticRegression() sur les données et examiner comment il prédit la probabilité de défaut.
Pour mieux comprendre ce que le modèle produit avec predict_proba, vous allez regarder un exemple d’enregistrement ainsi que la probabilité de défaut prédite. À quoi ressemblent les cinq premières prédictions par rapport aux valeurs réelles de loan_status ?
L'ensemble de données cr_loan_prep ainsi que X_train, X_test, y_train et y_test ont déjà été chargés dans l'environnement de travail.
Cet exercice fait partie du cours
Modélisation du risque de crédit en Python
Instructions
- Entraînez une régression logistique sur les données d’entraînement et stockez-la dans
clf_logistic. - Utilisez
predict_proba()sur les données de test pour créer les prédictions et stockez-les danspreds. - Créez deux DataFrames,
preds_dfettrue_df, pour stocker les cinq premières prédictions et les vraies valeursloan_status. - Affichez
true_dfetpreds_dfen un seul ensemble à l'aide de.concat().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Train the logistic regression model on the training data
____ = ____(solver='lbfgs').____(____, np.ravel(____))
# Create predictions of probability for loan status using test data
____ = clf_logistic.____(____)
# Create dataframes of first five predictions, and first five true labels
____ = pd.DataFrame(____[:,1][0:5], columns = ['prob_default'])
____ = y_test.____()
# Concatenate and print the two data frames for comparison
print(pd.____([true_df.reset_index(drop = True), preds_df], axis = 1))