IniziaInizia gratis

Scegliere il numero di vicini

L'imputazione k-Nearest-Neighbors (o kNN) riempie i valori mancanti di un'osservazione in base ai valori provenienti dalle k altre osservazioni più simili. Il numero di queste osservazioni simili, dette vicini, che vengono considerate è un parametro da scegliere in anticipo.

Come scegliere k? Un modo è provare valori diversi e vedere come influenzano le relazioni tra i dati imputati e quelli osservati.

Proviamo a imputare humidity nei dati tao usando tre valori diversi di k e vediamo quanto bene i valori imputati rispettano la relazione tra humidity e sea_surface_temp.

Questo esercizio fa parte del corso

Gestione dei dati mancanti con imputazioni in R

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")
Modifica ed esegui il codice