Podando a árvore com a matriz de perdas
Neste exercício, você vai podar a árvore construída usando uma matriz de perdas para penalizar mais os defaults classificados incorretamente do que os não-defaults classificados incorretamente.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em R
Instruções do exercício
- Execute o código para definir a semente e construir
tree_loss_matrixnovamente. - Use a função plotcp() para examinar a estrutura de erro por validação cruzada.
- Observando o gráfico de cp, você vai notar que podar a árvore usando o erro mínimo de validação cruzada levará a uma árvore tão grande quanto a não podada, pois o erro de validação cruzada atinge seu mínimo em
cp = 0.001. Como você gostaria de deixar a árvore um pouco menor, tente podar a árvore usandocp = 0.0012788. Para esse parâmetro de complexidade, o erro de validação cruzada se aproxima do erro mínimo observado. Chame a árvore podada deptree_loss_matrix. - O pacote
rpart.plotestá carregado no seu ambiente. Plote a árvore podada usando a funçãoprp()(incluindo o argumentoextra = 1).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# set a seed and run the code to construct the tree with the loss matrix again
set.seed(345)
tree_loss_matrix <- rpart(loan_status ~ ., method = "class", data = training_set,
parms = list(loss=matrix(c(0, 10, 1, 0), ncol = 2)),
control = rpart.control(cp = 0.001))
# Plot the cross-validated error rate as a function of the complexity parameter
# Prune the tree using cp = 0.0012788
# Use prp() and argument extra = 1 to plot the pruned tree