Potatura dell'albero con la matrice delle perdite
In questo esercizio, effettuerai la potatura dell'albero costruito usando una matrice delle perdite, in modo da penalizzare maggiormente i default classificati erroneamente rispetto ai non-default classificati erroneamente.
Questo esercizio fa parte del corso
Credit Risk Modeling in R
Istruzioni dell'esercizio
- Esegui il codice per impostare un seed e ricostruire
tree_loss_matrix. - Usa la funzione plotcp() per esaminare la struttura dell'errore con cross-validation.
- Osservando il grafico di cp, noterai che potare l'albero usando l'errore minimo in cross-validation porterà a un albero grande quanto quello non potato, poiché l'errore in cross-validation raggiunge il minimo per
cp = 0.001. Poiché vuoi rendere l'albero un po' più piccolo, prova a potarlo usandocp = 0.0012788. Con questo parametro di complessità, l'errore in cross-validation si avvicina al minimo osservato. Chiama l'albero potatoptree_loss_matrix. - Il pacchetto
rpart.plotè caricato nel tuo workspace. Rappresenta graficamente l'albero potato usando la funzioneprp()(includendo l'argomentoextra = 1).
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# set a seed and run the code to construct the tree with the loss matrix again
set.seed(345)
tree_loss_matrix <- rpart(loan_status ~ ., method = "class", data = training_set,
parms = list(loss=matrix(c(0, 10, 1, 0), ncol = 2)),
control = rpart.control(cp = 0.001))
# Plot the cross-validated error rate as a function of the complexity parameter
# Prune the tree using cp = 0.0012788
# Use prp() and argument extra = 1 to plot the pruned tree