Het aantal buren kiezen
k-Nearest-Neighbors- (of kNN-)imputatie vult ontbrekende waarden in een observatie op basis van de waarden uit de k andere, meest vergelijkbare observaties. Het aantal van deze vergelijkbare observaties, de zogeheten buren, dat je meeneemt, is een parameter die je vooraf moet kiezen.
Hoe kies je k? Een manier is om verschillende waarden te proberen en te bekijken hoe die de relatie tussen de geïmputeerde en geobserveerde data beïnvloeden.
Laten we humidity in de tao-data imputeren met drie verschillende waarden van k en kijken hoe de geïmputeerde waarden passen bij de relatie tussen humidity en sea_surface_temp.
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)
# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
___(delimiter = "imp", main = "k = 30")