kNN tips & tricks I: donoren wegen
Een veelgebruikte variant van kNN-imputatie maakt gebruik van zogenoemde afstandsgewogen aggregatie. Dit betekent dat wanneer we de waarden van de buren aggregeren om een vervanging voor een ontbrekende waarde te krijgen, we de gewogen gemiddelde gebruiken waarbij de gewichten de omgekeerde afstanden tot elke buur zijn. Daardoor hebben dichtere buren meer invloed op de geïmputeerde waarde.
In deze oefening pas je de afstandsgewogen aggregatie toe bij het imputeren van de tao-gegevens. Dit vereist alleen dat je twee extra argumenten doorgeeft aan de functie kNN(). Aan de slag!
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Oefeninstructies
- Laad het
VIM-pakket. - Imputeer
humiditymet kNN met een afstandsgewogen gemiddelde om buren te aggregeren; je moet de argumentennumFunenweightDistopgeven. - De margeplot om de resultaten te bekijken is al voor je geschreven.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the VIM package
___(___)
# Impute humidity with kNN using distance-weighted mean
tao_imp <- ___(tao,
k = 5,
variable = "humidity",
___ = ___,
___ = ___)
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
marginplot(delimiter = "imp")