ComeçarComece de graça

Podando a árvore com probabilidades a priori alteradas

No vídeo, você viu que podar uma árvore é necessário para evitar overfitting. Havia algumas árvores grandes nos exercícios anteriores e agora você vai colocar em prática o que aprendeu, podando a árvore construída anteriormente com as probabilidades a priori alteradas. O pacote rpart já está carregado no seu ambiente.

Primeiro, você definirá uma semente para garantir que os resultados sejam reprodutíveis, como mencionado no vídeo, porque você vai examinar resultados de erro com validação cruzada. Esses resultados envolvem aleatoriedade e podem variar um pouco se a função for executada novamente com outra semente.

Neste exercício, você vai aprender a identificar qual parâmetro de complexidade (CP) minimiza os erros com validação cruzada e, em seguida, podar sua árvore com base nesse valor.

Este exercício faz parte do curso

Modelagem de Risco de Crédito em R

Ver curso

Instruções do exercício

  • tree_prior está carregado no seu ambiente.
  • Use plotcp() para visualizar o erro com validação cruzada (X-val Relative Error) em relação ao parâmetro de complexidade para tree_prior.
  • Use printcp() para imprimir uma tabela com informações sobre CP, divisões (splits) e erros. Veja se você consegue identificar qual divisão tem o erro mínimo com validação cruzada em tree_prior.
  • Use which.min() para identificar qual linha em tree_prior$cptable tem o erro mínimo com validação cruzada "xerror". Atribua isso a index.
  • Crie tree_min selecionando o índice de tree_prior$cptable dentro da coluna "CP".
  • Use a função prune() para obter a árvore podada. Chame a árvore podada de ptree_prior.
  • O pacote rpart.plot está carregado no seu ambiente. Plote a árvore podada usando a função prp() (configuração padrão).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# tree_prior is loaded in your workspace

# Plot the cross-validated error rate as a function of the complexity parameter


# Use printcp() to identify for which complexity parameter the cross-validated error rate is minimized.


# Create an index for of the row with the minimum xerror
index <- which.min(___$___[ , "xerror"])

# Create tree_min
tree_min <- tree_prior$cptable[index, "CP"]

#  Prune the tree using tree_min
ptree_prior <- prune(___, cp = ___)

# Use prp() to plot the pruned tree
Editar e executar o código