Trainings- en testsets maken
Je hebt zojuist LogisticRegression()-modellen getraind op verschillende kolommen.
Je weet dat de gegevens moeten worden opgesplitst in trainings- en testsets. Met test_train_split() maak je ze allebei tegelijk aan. De trainingsset wordt gebruikt om voorspellingen te doen, terwijl de testset wordt gebruikt voor evaluatie. Zonder het model te evalueren, weet je niet hoe goed het zal presteren op nieuwe leninggegevens.
Naast de intercept_, een attribuut van het model, hebben LogisticRegression()-modellen ook het attribuut .coef_. Dit laat zien hoe belangrijk elke trainingskolom is voor het voorspellen van de kans op wanbetaling.
De gegevensset cr_loan_clean is al in de werkruimte geladen.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in Python
Oefeninstructies
- Maak de gegevensset
Xmet rente, lengte dienstverband en inkomen. Maak de setymet de leningsstatus. - Gebruik
train_test_split()om uitXenyde trainings- en testsets te maken. - Maak en train een
LogisticRegression()-model en sla dit op alsclf_logistic. - Print de coëfficiënten van het model met
.coef_.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create the X and y data sets
X = ____[[____,____,____]]
y = ____[[____]]
# Use test_train_split to create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=.4, random_state=123)
# Create and fit the logistic regression model
____ = ____(solver='lbfgs').____(____, np.ravel(____))
# Print the models coefficients
print(____.coef_)