Créer des ensembles d’entraînement et de test

Vous venez d’entraîner des modèles LogisticRegression() sur différentes colonnes.

Vous savez que les données doivent être séparées en ensembles d’entraînement et de test. test_train_split() est utilisé pour créer les deux en même temps. L’ensemble d’entraînement sert à ajuster le modèle, tandis que l’ensemble de test sert à l’évaluer. Sans évaluation, vous ne pouvez pas savoir comment le modèle se comportera sur de nouvelles demandes de prêt.

En plus de intercept_, qui est un attribut du modèle, les modèles LogisticRegression() possèdent aussi l’attribut .coef_. Il indique l’importance de chaque colonne d’entraînement pour prédire la probabilité de défaut.

Le jeu de données cr_loan_clean est déjà chargé dans l’espace de travail.

Cet exercice fait partie du cours

<cours>Modélisation du risque de crédit en Python</cours>

Voir le cours

Instructions de l’exercice

Créez l’ensemble de données X en utilisant le taux d’intérêt, l’ancienneté professionnelle et le revenu. Créez l’ensemble y à partir du statut du prêt.
Utilisez train_test_split() pour créer les ensembles d’entraînement et de test à partir de X et y.
Créez et entraînez un modèle LogisticRegression() et stockez-le dans clf_logistic.
Affichez les coefficients du modèle avec .coef_.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create the X and y data sets
X = ____[[____,____,____]]
y = ____[[____]]

# Use test_train_split to create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=.4, random_state=123)

# Create and fit the logistic regression model
____ = ____(solver='lbfgs').____(____, np.ravel(____))

# Print the models coefficients
print(____.coef_)

Modifier et exécuter le code