Régression logistique multivariée

En général, vous n'utiliserez pas uniquement loan_int_rate pour prédire la probabilité de défaut. Vous souhaiterez exploiter toutes les données disponibles pour faire vos prédictions.

Dans cet esprit, essayez d'entraîner un nouveau modèle avec d'autres colonnes, appelées caractéristiques (features), issues des données cr_loan_clean. Ce modèle sera-t-il différent du premier ? Pour le vérifier, vous pouvez facilement consulter la .intercept_ de la régression logistique. Rappelez-vous qu'il s'agit de l'ordonnée à l'origine de la fonction et du log-odds global de non-défaut.

Les données cr_loan_clean ont été chargées dans l'espace de travail, ainsi que le modèle précédent clf_logistic_single.

Cet exercice fait partie du cours

<cours>Modélisation du risque de crédit en Python</cours>

Voir le cours

Instructions de l’exercice

Créez un nouvel ensemble de données X avec loan_int_rate et person_emp_length. Stockez-le sous le nom X_multi.
Créez un ensemble de données y ne contenant que loan_status.
Créez et .fit() un modèle LogisticRegression() sur le nouveau X. Stockez-le sous le nom clf_logistic_multi.
Affichez la valeur de .intercept_ du modèle

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create X data for the model
X_multi = ____[[____,____]]

# Create a set of y data for training
y = ____[[____]]

# Create and train a new logistic regression
clf_logistic_multi = ____(solver='lbfgs').____(____, np.ravel(____))

# Print the intercept of the model
print(____.____)

Modifier et exécuter le code