Basis van logistische regressie
Je hebt de data nu opgeschoond en de nieuwe gegevensset cr_loan_clean gemaakt.
Denk terug aan de laatste scatterplot uit hoofdstuk 1, die meer wanbetalingen liet zien bij een hoge loan_int_rate. Rentepercentages zijn makkelijk te begrijpen, maar hoe bruikbaar zijn ze om de kans op wanbetaling te voorspellen?
Omdat je de kans op wanbetaling nog niet hebt voorspeld, ga je nu een logistiek regressiemodel maken en trainen met alleen loan_int_rate. Bekijk ook de interne parameters van het model, die lijken op instellingen, om de structuur van het model met deze ene kolom te zien.
De data cr_loan_clean is al in de werkruimte geladen.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in Python
Oefeninstructies
- Maak de sets
Xenymet de kolommenloan_int_rateenloan_status. - Maak en fit een logistiek regressiemodel op de trainingsdata en noem het
clf_logistic_single. - Print de parameters van het model met
.get_params(). - Controleer het intercept van het model met het attribuut
.intercept_.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create the X and y data sets
X = ____[[____]]
y = ____[[____]]
# Create and fit a logistic regression model
____ = ____()
clf_logistic_single.____(X, np.ravel(____))
# Print the parameters of the model
print(____.____())
# Print the intercept of the model
print(____.____)