IniziaInizia gratis

Outlier

È il momento di esaminare la struttura della variabile age. Sulla destra vedi un istogramma. Come hai osservato nel video per il reddito annuo (annual_inc), c'è molto spazio vuoto sul lato destro del grafico. Questo indica la possibile presenza di outlier. Verificherai con uno scatterplot. Se trovi outlier, li eliminerai.

Se si osservano outlier in più variabili, può essere utile guardare grafici bivariati. È possibile che gli outlier appartengano alla stessa osservazione. In tal caso, c'è ancora più motivo per eliminare l'osservazione, perché è più probabile che alcune informazioni in essa contenute siano errate.

Questo esercizio fa parte del corso

Credit Risk Modeling in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea uno scatterplot della variabile age (tramite loan_data$age) usando la funzione plot(). Dai all'asse y l'etichetta appropriata "Age" usando ylab come secondo argomento.
  • La persona più anziana in questo insieme di dati ha più di 122 anni! Ottieni l'indice di questo outlier usando which() e l'età di 122 come soglia (puoi farlo con loan_data$age > 122). Assegnalo all'oggetto index_highage.
  • Crea un nuovo insieme di dati new_data, dopo aver rimosso l'osservazione con l'età elevata usando l'oggetto index_highage.
  • Osserva lo scatterplot bivariato, con l'età sull'asse x e il reddito annuo sull'asse y. Cambia le etichette rispettivamente in "Age" e "Annual Income".

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Plot the age variable


# Save the outlier's index to index_highage


# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]

# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")
Modifica ed esegui il codice