ComeçarComece de graça

Outliers

Agora é hora de analisar a estrutura da variável age. Um histograma está exibido à direita. Assim como você viu no vídeo para renda anual (annual_inc), há muito espaço em branco no lado direito do gráfico. Isso indica possíveis outliers. Você vai verificar isso com um gráfico de dispersão. Se encontrar outliers, você os excluirá.

Se houver outliers em várias variáveis, pode ser útil observar gráficos bivariados. É possível que os outliers pertençam à mesma observação. Nesse caso, há ainda mais razão para excluir a observação, pois é mais provável que alguma informação nela esteja incorreta.

Este exercício faz parte do curso

Modelagem de Risco de Crédito em R

Ver curso

Instruções do exercício

  • Construa um gráfico de dispersão da variável age (via loan_data$age) usando a função plot(). Dê ao eixo y o rótulo apropriado "Age" usando ylab como segundo argumento.
  • A pessoa mais velha neste conjunto de dados tem mais de 122 anos! Obtenha o índice desse outlier usando which() e a idade de 122 como limite (você pode fazer isso com loan_data$age > 122). Atribua-o ao objeto index_highage.
  • Crie um novo conjunto de dados new_data, após remover a observação com idade elevada usando o objeto index_highage.
  • Observe o gráfico de dispersão bivariado, com idade no eixo x e renda anual no eixo y. Altere os rótulos para "Age" e "Annual Income", respectivamente.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Plot the age variable


# Save the outlier's index to index_highage


# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]

# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")
Editar e executar o código