Multivariate logistische regressie
Meestal gebruik je niet alleen loan_int_rate om de kans op wanbetaling te voorspellen. Je wilt alle beschikbare data gebruiken om voorspellingen te doen.
Met dit in gedachten ga je een nieuw model trainen met verschillende kolommen, ook wel features genoemd, uit de cr_loan_clean-data. Zal dit model verschillen van het eerste? Dat kun je eenvoudig nagaan via de .intercept_ van de logistische regressie. Onthoud dat dit het snijpunt met de y-as van de functie is en de algemene log-odds van geen wanbetaling.
De cr_loan_clean-data is in de werkruimte geladen, samen met het vorige model clf_logistic_single.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in Python
Oefeninstructies
- Maak een nieuwe
X-gegevensset metloan_int_rateenperson_emp_length. Sla deze op alsX_multi. - Maak een
y-gegevensset met alleenloan_status. - Maak en
.fit()eenLogisticRegression()-model op de nieuweX-data. Sla het op alsclf_logistic_multi. - Print de
.intercept_-waarde van het model
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create X data for the model
X_multi = ____[[____,____]]
# Create a set of y data for training
y = ____[[____]]
# Create and train a new logistic regression
clf_logistic_multi = ____(solver='lbfgs').____(____, np.ravel(____))
# Print the intercept of the model
print(____.____)