Trainings- en testsets maken

Je hebt zojuist LogisticRegression()-modellen getraind op verschillende kolommen.

Je weet dat de gegevens moeten worden opgesplitst in trainings- en testsets. Met test_train_split() maak je ze allebei tegelijk aan. De trainingsset wordt gebruikt om voorspellingen te doen, terwijl de testset wordt gebruikt voor evaluatie. Zonder het model te evalueren, weet je niet hoe goed het zal presteren op nieuwe leninggegevens.

Naast de intercept_, een attribuut van het model, hebben LogisticRegression()-modellen ook het attribuut .coef_. Dit laat zien hoe belangrijk elke trainingskolom is voor het voorspellen van de kans op wanbetaling.

De gegevensset cr_loan_clean is al in de werkruimte geladen.

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in Python

Bekijk cursus

Oefeninstructies

Maak de gegevensset X met rente, lengte dienstverband en inkomen. Maak de set y met de leningsstatus.
Gebruik train_test_split() om uit X en y de trainings- en testsets te maken.
Maak en train een LogisticRegression()-model en sla dit op als clf_logistic.
Print de coëfficiënten van het model met .coef_.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create the X and y data sets
X = ____[[____,____,____]]
y = ____[[____]]

# Use test_train_split to create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=.4, random_state=123)

# Create and fit the logistic regression model
____ = ____(solver='lbfgs').____(____, np.ravel(____))

# Print the models coefficients
print(____.coef_)

Code bewerken en uitvoeren