Komşu sayısını seçmek
k-Nearest-Neighbors (ya da kNN) ataması, bir gözlemdeki eksik değerleri, ona en çok benzeyen diğer k gözlemden gelen değerlere göre doldurur. Bu benzer gözlemlerin sayısı, yani dikkate alınan komşular, önceden seçilmesi gereken bir parametredir.
Peki k nasıl seçilir? Bir yol, farklı değerleri denemek ve bunların, atanan ve gözlenen veriler arasındaki ilişkiyi nasıl etkilediğine bakmaktır.
Hadi tao verisinde humidity değişkenini üç farklı k değeriyle atayalım ve atanan değerlerin humidity ile sea_surface_temp arasındaki ilişkiye ne kadar iyi uyduğunu görelim.
Bu egzersiz
R'de Atamaya Dayalı Eksik Veri Doldurma
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)
# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
___(delimiter = "imp", main = "k = 30")