Codificação de características categóricas
Às vezes, um conjunto de dados contém valores numéricos que representam um recurso categórico.
No conjunto de dados donors
, wealth_rating
usa números para indicar o nível de riqueza do doador:
- 0 = Desconhecido
- 1 = Baixo
- 2 = Médio
- 3 = Alta
Este exercício ilustra como preparar esse tipo de característica categórica e examina seu impacto em um modelo de regressão logística. O quadro de dados donors
está disponível para você usar.
Este exercício faz parte do curso
Aprendizagem supervisionada em R: Classificação
Instruções de exercício
- Crie um fator
wealth_levels
a partir dowealth_rating
numérico com rótulos, conforme mostrado, passando para a funçãofactor()
a coluna que você deseja converter, os níveis individuais e os rótulos. - Use
relevel()
para alterar a categoria de referência paraMedium
. O primeiro argumento deve ser sua nova colunafactor
. - Crie um modelo de regressão logística usando a coluna
wealth_levels
para preverdonated
e exiba o resultado comsummary()
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Convert the wealth rating to a factor
donors$wealth_levels <- ___(___, levels = ___, labels = ___)
# Use relevel() to change reference category
donors$wealth_levels <- ___(___, ref = ___)
# See how our factor coding impacts the model
summary(___)