ComeçarComece de graça

Mantendo dados ausentes

Em algumas situações, o fato de uma entrada estar ausente já é uma informação importante por si só. NAs podem ser mantidos em uma categoria "missing" separada usando classificação grosseira.

A classificação grosseira ajuda você a simplificar seus dados e melhorar a interpretabilidade do modelo. Ela exige que você agrupe suas respostas em faixas de valores. Você pode usar essa técnica de agrupamento para colocar todos os NAs em seu próprio grupo.

No vídeo, mostramos a ideia de classificação grosseira para tempo de emprego. O código desse exemplo foi reproduzido no script R à direita e pode ser adaptado para classificar grosseiramente a variável int_rate.

Este exercício faz parte do curso

Modelagem de Risco de Crédito em R

Ver curso

Instruções do exercício

  • Faça as alterações necessárias no código fornecido para classificar grosseiramente int_rate, salvando o resultado em uma nova variável chamada ir_cat.
    • Primeiro, substitua loan_data$emp_cat por loan_data$ir_cat onde aparecer no script R, e substitua também loan_data$emp_length por loan_data$int_rate.
    • Em seguida, as variáveis devem ser agrupadas nas categorias "0-8", "8-11", "11-13.5" e "13.5+" (substituindo "0-15","15-30","30-45" e "45+"). O uso de > e <= é exatamente como no vídeo. Lembre-se de alterar também os números nas condicionais (15, 30 e 45 devem ser trocados por 8, 11 e 13.5, respectivamente).
  • Visualize sua nova variável ir_cat usando plot(loan_data$ir_cat).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Make the necessary replacements in the coarse classification example below 
loan_data$emp_cat <- rep(NA, length(loan_data$emp_length))

loan_data$emp_cat[which(loan_data$emp_length <= 15)] <- "0-15"
loan_data$emp_cat[which(loan_data$emp_length > 15 & loan_data$emp_length <= 30)] <- "15-30"
loan_data$emp_cat[which(loan_data$emp_length > 30 & loan_data$emp_length <= 45)] <- "30-45"
loan_data$emp_cat[which(loan_data$emp_length > 45)] <- "45+"
loan_data$emp_cat[which(is.na(loan_data$emp_length))] <- "Missing"

loan_data$emp_cat <- as.factor(loan_data$emp_cat)

# Look at your new variable using plot()
Editar e executar o código