Outliers
Agora é hora de analisar a estrutura da variável age. Um histograma está exibido à direita. Assim como você viu no vídeo para renda anual (annual_inc), há muito espaço em branco no lado direito do gráfico. Isso indica possíveis outliers. Você vai verificar isso com um gráfico de dispersão. Se encontrar outliers, você os excluirá.
Se houver outliers em várias variáveis, pode ser útil observar gráficos bivariados. É possível que os outliers pertençam à mesma observação. Nesse caso, há ainda mais razão para excluir a observação, pois é mais provável que alguma informação nela esteja incorreta.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em R
Instruções do exercício
- Construa um gráfico de dispersão da variável
age(vialoan_data$age) usando a funçãoplot(). Dê ao eixo y o rótulo apropriado"Age"usandoylabcomo segundo argumento. - A pessoa mais velha neste conjunto de dados tem mais de 122 anos! Obtenha o índice desse outlier usando which() e a idade de 122 como limite (você pode fazer isso com
loan_data$age > 122). Atribua-o ao objetoindex_highage. - Crie um novo conjunto de dados
new_data, após remover a observação com idade elevada usando o objetoindex_highage. - Observe o gráfico de dispersão bivariado, com idade no eixo x e renda anual no eixo y. Altere os rótulos para
"Age"e"Annual Income", respectivamente.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Plot the age variable
# Save the outlier's index to index_highage
# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]
# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")