BaşlayınÜcretsiz Başlayın

Komşu sayısını seçmek

k-Nearest-Neighbors (ya da kNN) ataması, bir gözlemdeki eksik değerleri, ona en çok benzeyen diğer k gözlemden gelen değerlere göre doldurur. Bu benzer gözlemlerin sayısı, yani dikkate alınan komşular, önceden seçilmesi gereken bir parametredir.

Peki k nasıl seçilir? Bir yol, farklı değerleri denemek ve bunların, atanan ve gözlenen veriler arasındaki ilişkiyi nasıl etkilediğine bakmaktır.

Hadi tao verisinde humidity değişkenini üç farklı k değeriyle atayalım ve atanan değerlerin humidity ile sea_surface_temp arasındaki ilişkiye ne kadar iyi uyduğunu görelim.

Bu egzersiz

R'de Atamaya Dayalı Eksik Veri Doldurma

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")
Kodu Düzenle ve Çalıştır