Outlier
È il momento di esaminare la struttura della variabile age. Sulla destra vedi un istogramma. Come hai osservato nel video per il reddito annuo (annual_inc), c'è molto spazio vuoto sul lato destro del grafico. Questo indica la possibile presenza di outlier. Verificherai con uno scatterplot. Se trovi outlier, li eliminerai.
Se si osservano outlier in più variabili, può essere utile guardare grafici bivariati. È possibile che gli outlier appartengano alla stessa osservazione. In tal caso, c'è ancora più motivo per eliminare l'osservazione, perché è più probabile che alcune informazioni in essa contenute siano errate.
Questo esercizio fa parte del corso
Credit Risk Modeling in R
Istruzioni dell'esercizio
- Crea uno scatterplot della variabile
age(tramiteloan_data$age) usando la funzioneplot(). Dai all'asse y l'etichetta appropriata"Age"usandoylabcome secondo argomento. - La persona più anziana in questo insieme di dati ha più di 122 anni! Ottieni l'indice di questo outlier usando which() e l'età di 122 come soglia (puoi farlo con
loan_data$age > 122). Assegnalo all'oggettoindex_highage. - Crea un nuovo insieme di dati
new_data, dopo aver rimosso l'osservazione con l'età elevata usando l'oggettoindex_highage. - Osserva lo scatterplot bivariato, con l'età sull'asse x e il reddito annuo sull'asse y. Cambia le etichette rispettivamente in
"Age"e"Annual Income".
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Plot the age variable
# Save the outlier's index to index_highage
# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]
# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")