Cross-validatie voor kredietmodellen
Kredietleningen en de bijbehorende data veranderen in de tijd, en zien er niet altijd uit zoals wat nu in de testsets is geladen. Daarom kun je cross-validatie gebruiken om meerdere kleinere trainings- en testsets te proberen die zijn afgeleid van de oorspronkelijke X_train en y_train.
Gebruik de XGBoost-functie cv() om cross-validatie uit te voeren. Je moet alle parameters instellen die cv() op de testdata gebruikt.
De gegevenssets X_train, y_train zijn geladen in de werkruimte, samen met het getrainde model gbt en het parameterwoordenboek params, dat wordt geprint zodra de oefening start.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in Python
Oefeninstructies
- Zet het aantal folds op
5en de vroegtijdige stop op10. Sla ze op alsn_foldsenearly_stopping. - Maak het matrixobject
DTrainmet de trainingsdata. - Gebruik
cv()met de parameters, folds en early-stopping-objecten. Sla de resultaten op alscv_df. - Print de inhoud van
cv_df.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set the values for number of folds and stopping iterations
____ = ____
____ = ____
# Create the DTrain matrix for XGBoost
____ = xgb.____(____, label = ____)
# Create the data frame of cross validations
____ = xgb.cv(____, ____, num_boost_round = 5, nfold=____,
early_stopping_rounds=____)
# Print the cross validations data frame
____(____)