Scegliere il numero di vicini
L'imputazione k-Nearest-Neighbors (o kNN) riempie i valori mancanti di un'osservazione in base ai valori provenienti dalle k altre osservazioni più simili. Il numero di queste osservazioni simili, dette vicini, che vengono considerate è un parametro da scegliere in anticipo.
Come scegliere k? Un modo è provare valori diversi e vedere come influenzano le relazioni tra i dati imputati e quelli osservati.
Proviamo a imputare humidity nei dati tao usando tre valori diversi di k e vediamo quanto bene i valori imputati rispettano la relazione tra humidity e sea_surface_temp.
Questo esercizio fa parte del corso
Gestione dei dati mancanti con imputazioni in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)
# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
___(delimiter = "imp", main = "k = 30")