Mantendo dados ausentes
Em algumas situações, o fato de uma entrada estar ausente já é uma informação importante por si só. NAs podem ser mantidos em uma categoria "missing" separada usando classificação grosseira.
A classificação grosseira ajuda você a simplificar seus dados e melhorar a interpretabilidade do modelo. Ela exige que você agrupe suas respostas em faixas de valores. Você pode usar essa técnica de agrupamento para colocar todos os NAs em seu próprio grupo.
No vídeo, mostramos a ideia de classificação grosseira para tempo de emprego. O código desse exemplo foi reproduzido no script R à direita e pode ser adaptado para classificar grosseiramente a variável int_rate.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em R
Instruções do exercício
- Faça as alterações necessárias no código fornecido para classificar grosseiramente
int_rate, salvando o resultado em uma nova variável chamadair_cat.- Primeiro, substitua
loan_data$emp_catporloan_data$ir_catonde aparecer no script R, e substitua tambémloan_data$emp_lengthporloan_data$int_rate. - Em seguida, as variáveis devem ser agrupadas nas categorias
"0-8","8-11","11-13.5"e"13.5+"(substituindo"0-15","15-30","30-45"e"45+"). O uso de>e<=é exatamente como no vídeo. Lembre-se de alterar também os números nas condicionais (15, 30 e 45 devem ser trocados por 8, 11 e 13.5, respectivamente).
- Primeiro, substitua
- Visualize sua nova variável
ir_catusandoplot(loan_data$ir_cat).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Make the necessary replacements in the coarse classification example below
loan_data$emp_cat <- rep(NA, length(loan_data$emp_length))
loan_data$emp_cat[which(loan_data$emp_length <= 15)] <- "0-15"
loan_data$emp_cat[which(loan_data$emp_length > 15 & loan_data$emp_length <= 30)] <- "15-30"
loan_data$emp_cat[which(loan_data$emp_length > 30 & loan_data$emp_length <= 45)] <- "30-45"
loan_data$emp_cat[which(loan_data$emp_length > 45)] <- "45+"
loan_data$emp_cat[which(is.na(loan_data$emp_length))] <- "Missing"
loan_data$emp_cat <- as.factor(loan_data$emp_cat)
# Look at your new variable using plot()