Aan de slagBegin gratis

Het aantal buren kiezen

k-Nearest-Neighbors- (of kNN-)imputatie vult ontbrekende waarden in een observatie op basis van de waarden uit de k andere, meest vergelijkbare observaties. Het aantal van deze vergelijkbare observaties, de zogeheten buren, dat je meeneemt, is een parameter die je vooraf moet kiezen.

Hoe kies je k? Een manier is om verschillende waarden te proberen en te bekijken hoe die de relatie tussen de geïmputeerde en geobserveerde data beïnvloeden.

Laten we humidity in de tao-data imputeren met drie verschillende waarden van k en kijken hoe de geïmputeerde waarden passen bij de relatie tussen humidity en sea_surface_temp.

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")
Code bewerken en uitvoeren