Prédire la probabilité de défaut

Tout le prétraitement des données est terminé et il est temps de commencer à créer des prédictions de probabilité de défaut. Vous souhaitez entraîner un modèle LogisticRegression() sur les données et examiner comment il prédit la probabilité de défaut.

Pour mieux comprendre ce que le modèle produit avec predict_proba, vous allez regarder un exemple d’enregistrement ainsi que la probabilité de défaut prédite. À quoi ressemblent les cinq premières prédictions par rapport aux valeurs réelles de loan_status ?

L'ensemble de données cr_loan_prep ainsi que X_train, X_test, y_train et y_test ont déjà été chargés dans l'environnement de travail.

Cet exercice fait partie du cours

<cours>Modélisation du risque de crédit en Python</cours>

Voir le cours

Instructions de l’exercice

Entraînez une régression logistique sur les données d’entraînement et stockez-la dans clf_logistic.
Utilisez predict_proba() sur les données de test pour créer les prédictions et stockez-les dans preds.
Créez deux DataFrames, preds_df et true_df, pour stocker les cinq premières prédictions et les vraies valeurs loan_status.
Affichez true_df et preds_df en un seul ensemble à l'aide de .concat().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Train the logistic regression model on the training data
____ = ____(solver='lbfgs').____(____, np.ravel(____))

# Create predictions of probability for loan status using test data
____ = clf_logistic.____(____)

# Create dataframes of first five predictions, and first five true labels
____ = pd.DataFrame(____[:,1][0:5], columns = ['prob_default'])
____ = y_test.____()

# Concatenate and print the two data frames for comparison
print(pd.____([true_df.reset_index(drop = True), preds_df], axis = 1))

Modifier et exécuter le code