MulaiMulai sekarang secara gratis

Memilih jumlah tetangga

Imputasi k-Nearest-Neighbors (atau kNN) mengisi nilai yang hilang pada suatu observasi berdasarkan nilai dari k observasi lain yang paling mirip dengannya. Jumlah observasi serupa ini, yang disebut tetangga, adalah parameter yang harus dipilih terlebih dahulu.

Bagaimana memilih k? Salah satu caranya adalah mencoba beberapa nilai dan melihat bagaimana nilai tersebut memengaruhi hubungan antara data yang diimputasi dan data yang teramati.

Mari coba mengimputasi humidity pada data tao menggunakan tiga nilai k yang berbeda dan lihat bagaimana nilai hasil imputasi menyesuaikan hubungan antara humidity dan sea_surface_temp.

Latihan ini adalah bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")
Edit dan Jalankan Kode