Créer des ensembles d’entraînement et de test
Vous venez d’entraîner des modèles LogisticRegression() sur différentes colonnes.
Vous savez que les données doivent être séparées en ensembles d’entraînement et de test. test_train_split() est utilisé pour créer les deux en même temps. L’ensemble d’entraînement sert à ajuster le modèle, tandis que l’ensemble de test sert à l’évaluer. Sans évaluation, vous ne pouvez pas savoir comment le modèle se comportera sur de nouvelles demandes de prêt.
En plus de intercept_, qui est un attribut du modèle, les modèles LogisticRegression() possèdent aussi l’attribut .coef_. Il indique l’importance de chaque colonne d’entraînement pour prédire la probabilité de défaut.
Le jeu de données cr_loan_clean est déjà chargé dans l’espace de travail.
Cet exercice fait partie du cours
Modélisation du risque de crédit en Python
Instructions
- Créez l’ensemble de données
Xen utilisant le taux d’intérêt, l’ancienneté professionnelle et le revenu. Créez l’ensembleyà partir du statut du prêt. - Utilisez
train_test_split()pour créer les ensembles d’entraînement et de test à partir deXety. - Créez et entraînez un modèle
LogisticRegression()et stockez-le dansclf_logistic. - Affichez les coefficients du modèle avec
.coef_.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the X and y data sets
X = ____[[____,____,____]]
y = ____[[____]]
# Use test_train_split to create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=.4, random_state=123)
# Create and fit the logistic regression model
____ = ____(solver='lbfgs').____(____, np.ravel(____))
# Print the models coefficients
print(____.coef_)